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AVANT-PROPOS 


L'objectif de cet ouvrage est de rendre accessibles les fondements théoriques 
de la statistique à un public de niveau mathématique moyen : étudiants du 
premier cycle des filières scientifiques, élèves ingénieurs, chercheurs dans les 
domaines appliqués (économie, gestion, biologie, médecine, géographie, sciences 
de la vie, psychologie... ) et, plus généralement, tous les chercheurs désireux 
d'approfondir leur compréhension des résultats utilisés dans la pratique. Pour 
ces derniers un minimum de connaissance de l’arrière-plan théorique apportera 
une vision plus claire et plus critique des méthodes qu’ils emploient et permettra 
d'éviter bien des écueils. 


Les prérequis principaux sont la maîtrise de la dérivation, de l’intégration 
et de bases minimales du calcul des probabilités. Sur le plan purement mathé- 
matique, nous pensons que l'essentiel de l’exposé est accessible à quiconque 
aurait parfaitement assimilé le programme d’un bac scientifique. Il reste cepen- 
dant quelques notions qui ne sont abordées qu’en premier cycle supérieur, no- 
tamment les approximations par développement de Taylor, les développements 
en série entière, les fonctions de plusieurs variables (dérivation et intégration) 
et, très marginalement, le calcul matriciel. Mais ces notions n’interviennent 
le plus souvent que dans les aspects techniques de démonstration, ce qui ne 
devrait pas nuire à la compréhension des concepts. Pour satisfaire la curio- 
sité de mathématiciens qui voudraient, par la lecture de cet ouvrage, s'initier 
sans peine à la science statistique, mention sera faite ici ou là de résultats ou 
démonstrations exigeant des connaissances plus approfondies d’analyse. Ces 
éléments seront consignés en petits caractères, généralement dans des «notes» 
détachées que l’on pourra ignorer totalement. Quelques exercices plus difficiles, 
repérés par un astérisque, leur sont également proposés. 


Notons que les premiers chapitres concernent la théorie des probabilités qui, 
toutefois, est abordée non comme une fin en soi mais de façon simplifiée dans la 
perspective de ce qui est nécessaire pour la théorie statistique de l’estimation 
et des tests. 


Pour atteindre l’objectif fixé nous avons pris le parti de toujours privilégier 
la facilité de compréhension au détriment éventuel de la pureté formelle (si 
tant est qu’elle existe). Nous sommes d’avis que trop de formalisme nuit à 
l’assimilation des concepts et qu’il faut s’efforcer sans cesse de s’en tenir à un 
niveau compatible avec celui des connaissances du public visé. Ceci à été un 
souci constant dans la rédaction. Cela ne signifie pas que nous ayons renoncé 
à la rigueur du propos, c’est-à-dire à la cohérence des éléments apportés tout 
au long de l’ouvrage. 


Par ailleurs, nous faisons partie de ceux qui pensent que la statistique ne 
relève pas uniquement de la mathématique qui n’est qu’un instrument. Sa 
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raison d’être consiste à appréhender le monde réel à partir des observations 
que l’on en fait. C’est pourquoi la discipline est rangée dans le domaine des 
mathématiques appliquées, ce terme ne devant pas, à notre sens, rester un vain 
mot. Fidèle à cette vision nous avons tenté de commenter le plus largement 
possible les concepts et résultats de façon concrète pour montrer leur utilité 
dans l’approche du réel. Dans les chapitres débouchant immédiatement sur des 
méthodes usuelles nous avons également introduit des exercices «appliqués» 
pour illustrer l’intérêt et la mise en oeuvre des principes théoriques. L'ouvrage 
n’est donc pas uniquement un traité mathématique. Cela a motivé le choix 
de son sous-titre « La théorie et ses applications» pour marquer la distinction, 
même si son objectif premier reste l’exposé de la théorie. 


L'essentiel de l’apport de cette nouvelle édition est constitué des corrigés 
détaillés des exercices proposés. Cette demande m'a été faite de façon récurrente 
et il est vrai que ces corrigés doivent permettre d'améliorer nettement l’assimi- 
lation de la matière. 


Je remercie mes collègues Alain Latour et Pierre Lafaye de Micheaux pour 
leur aide technique précieuse ainsi qu'Alain Catalano, Yves-Alain Gerber, 
Jérôme Hennet, Alexandre Junod, Julien Junod, Vincent Voirol et Mathieu 
Vuilleumier pour leurs appréciations. 


J’adresse des remerciements particuliers à Yadolah Dodge, directeur de cette 
collection «Statistique et probabilités appliquées », sans les encouragements 
duquel cet ouvrage n’aurait sans doute pas abouti. 


Michel Lejeune Grenoble, juin 2010 
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Chapitre 1 


Variables aléatoires 


1.1 Notion de variable aléatoire 


La théorie des probabilités a pour objet l’étude des phénomènes aléatoires 
ou du moins considérés comme tels par l’observateur. Pour cela on intro- 
duit le concept d'expérience! aléatoire dont l’ensemble des résultats possibles 
constitue l’ensemble fondamental, noté habituellement (. On parle de variable 
aléatoire (abréviation : v.a.) lorsque les résultats sont numériques, c’est-à-dire 
que ( est identique à tout ou partie de l’ensemble des nombres réels R. 


On distingue habituellement : 


- les variables aléatoires discrètes pour lesquelles l’ensemble Q des résultats 
possibles est un ensemble discret de valeurs numériques æ1,Æ2,...,Æn,... 
fini ou infini (typiquement : l’ensemble des entiers naturels) ; 


- les variables aléatoires continues pour lesquelles l’ensemble Q est tout R (ou 
un intervalle de R ou, plus rarement, une union d’intervalles). 


On peut concevoir des variables mixtes, mais nous ne traiterons pas, sauf 
exception, ces cas particuliers. 


Dans toute expérience aléatoire on est amené à s’intéresser à des ensembles 
de résultats, donc des parties de Q, que l’on appelle événements, les résultats 
formant eux-mêmes des événements élémentaires. Dans le cas d’une v.a. les 
événements sont des parties de R, le plus souvent des intervalles. Par exemple 
on s’intéressera au fait qu’un assuré occasionne un sinistre de coût supérieur à 
1000 euros au cours d’une année. 


Dès lors il reste à construire un modèle probabiliste pour l’ensemble fonda- 
mental considéré. Ceci ne pose pas de problème pour le cas d’une v.a. discrète. 
En effet il suffit de définir les probabilités de chaque résultat æ1,æ%2,...,Æn,..., 


1Le terme est trop restrictif pour prendre en compte la variété des phénomènes étudiés. 
On trouvera une brève discussion à ce propos au début du chapitre 5. 
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à partir de quoi on peut, par les règles élémentaires des probabilités, calculer la 
probabilité de tout événement (en sommant celles des résultats appartenant à 
l’événement). De plus toute partie de ( est un événement. C’est la présentation 
que l’on trouve généralement dans les traités élémentaires. 


Pour une v.a.continue les choses sont plus délicates. En effet un point de R 
est un intervalle de longueur nulle et la probabilité associée à tout point est elle- 
même nulle. On ne peut donc «probabiliser » R à partir de probabilités associées 
à chacun de ses éléments. En fait les probabilités doivent être attribuées aux 
événements. De plus, contrairement au cas discret, l’ensemble des parties de R 
est trop vaste pour constituer un ensemble d'événements tous probabilisables 
et l’on doit se restreindre à certaines parties (voir plus loin la note 1.2). Ceci n’a 
toutefois aucune incidence sur le plan pratique tant il est vrai que les parties 
de R qui sont exclues ne sont que des curiosités mathématiques. Par souci 
d’homogénéité, dans le cas discret on considère la probabilisation de Q à partir 
de l’ensemble € des événements, comme dans le cas continu. 


Soit, donc, l’ensemble € des événements construit à partir de Q, on appelle 
mesure de probabilité une fonction P qui à tout événement E fait correspondre 
un nombre P(E) entre 0 et 1 que l’on appellera la probabilité de l'événement E 
(cette fonction doit en outre vérifier certains axiomes, voir ci-après). Pour une 
variable aléatoire on parlera plutôt de la loi de la variable aléatoire ou encore, 
de sa distribution, par emprunt à la statistique descriptive. 


Par commodité on désigne une variable aléatoire par une lettre majuscule 
symbolique et on écrit simplement un événement sous la forme usuelle des 
notations mathématiques. Ainsi, si X désigne la variable aléatoire «durée de vie 
en années d’un aspirateur donné», (X < 3) dénotera l'événement «l'aspirateur 
a une durée de vie inférieure à 3 ans». La probabilité associée à cet événement 
pourra s’écrire P(X < 3). Cette commodité pourra parfois prêter à confusion 
et il sera toujours utile de garder à l’esprit son caractère conventionnel. Aïnsi 
dans notre exemple P(X < 3) n’est rien d’autre que la mesure de probabilité 
associée à l’intervalle | — co, 3[, soit P(]—00,3[) . Dans sa forme la plus générale 
un événement pourra s’écrire (X € À) où À est une partie de R. 


Rappelons succinctement les principales propriétés d’une mesure de proba- 
bilité. 

1. P(E) € [0,1] pour tout événement E et P($) = 1 

2. P(E)=1-P(E), E étant le complémentaire de E 


3. P(E1UE2) = P(E:) + P(E2), pour tous événements Æ1 et ÆE2 incom- 
patibles (i.e. parties disjointes de Q : E1 N E2 = () 


4. P(E1 U E2) = P(E:) + P(E2) — P(E1 0 E2) dans le cas général 


5. E; € Es (E inclus dans E>) > P(E:) < P(E:) 
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6. La probabilité conditionnelle de E1 sachant E2 (pour autant que l’on ait 
P(E2) # 0) est : 

P(EiNE) 
P(E2) 

7. Les événements E1 et Æ2 de probabilités non nulles sont indépendants 
si et seulement si : 


P(EilE2) = 


P(ENE2) = P(E:)P(E:) 
ou, de façon équivalente quand P(E2) Z£ 0, P(E1|E2) = P(E1). 


La propriété 1 et la propriété 3 généralisée à une suite E1,ÆE2,...,En,... 
d'événements deux à deux incompatibles constituent les axiomes de la théo- 
rie des probabilités. La propriété 7 s'étend à une suite d'événements de la 
façon suivante : on dit que les événements E1,ÆE2,...,E,,... sont (mutuelle- 
ment) indépendants si, pour tout sous-ensemble de ces événements, la proba- 
bilité de leur intersection est égale au produit de leurs probabilités (donc la 
relation doit être vérifiée pour les événements pris deux à deux, trois à trois, 
etc.). 


Note 1.1 Plus formellement et pour être plus général, on définit une v.a. en 
partant d’une expérience aléatoire dont l’ensemble fondamental peut être de 
nature quelconque. C’est pour cet ensemble fondamental qu'est définie la 
mesure de probabilité pour former un espace probabilisé. Une v.a. devient alors 
une fonction de ( dans R, qui affecte donc à chaque résultat possible une 
valeur numérique. Par exemple, si l’expérience aléatoire consiste à tirer au 
hasard un individu dans une population, l’ensemble des résultats possibles Q est 
l’ensemble des individus de la population. A partir de là on peut observer l’âge 
de l’individu. Définissant ainsi la v.a. X «âge d’un individu tiré au hasard dans 
la population» on obtient la probabilité, disons, de l’événement (18 < X < 20) 
en calculant sur Q la probabilité de tirer un individu dont l’âge est compris 
dans cet intervalle. Plus généralement à tout événement E € R sur X on 
attribue la probabilité de l'événement X71(E) = {w € Q | X(w) € E} de 
l’espace probabilisé initial (cet événement correspond à l’ensemble des résultats 
possibles w dans ( qui conduisent par la fonction X à une valeur appartenant à 
E). Pour des fonctions X extrêmement singulières il se pourrait que X_1(F) ne 
soit pas un événement probabilisable. On ne considèrera donc que des fonctions 
mesurables, c'est-à-dire telles qu’une probabilité puisse être affectée à tout E. 
En pratique toutes les fonctions utilisées sont mesurables et nous ignorerons ce 
problème dans cet ouvrage. 


Ce formalisme n’a d'intérêt que s’il pré-existe, en amont du phénomène 
numérique observé, des événements de probabilités connues ou facilement cal- 
culables. C’est ainsi dans notre exemple : tous les individus ont la même pro- 
babilité d’être tirés, égale à 1/N où N est le nombre total d'individus. Alors la 
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probabilité d’un événement E pour X est 1/N fois le nombre d'individus dont 
l’âge est dans FE, donc la proportion d'individus dont l’âge est dans E . 


Illustrons encore cela par un autre exemple fondé sur le jeu de cartes du 
bridge. Un joueur donné reçoit 13 cartes parmi les 52 cartes au total. Les cartes 
étant distribuées au hasard toutes les (>) combinaisons de 13 cartes sont a 
priori équiprobables. Pour évaluer son «jeu» un joueur utilise le système de 
points classique suivant : un as vaut 4 points, un roi 3, une dame 2 et un valet 
1. Ainsi on définit une v.a. X «nombre de points dans son jeu». Pour calculer 
P(X = 1), par exemple, il suffit (moyennant une bonne maîtrise de l’analyse 
combinatoire !) de dénombrer les combinaisons de 13 cartes ayant un seul valet 
et ni as ni roi ni dame (il y en à un nombre (© Co La probabilité est alors 
égale au nombre de ces jeux divisé par le nombre total de combinaisons. On voit 
comment, dans un tel cas, pour trouver la loi de X il est nécessaire de remonter 
à l'expérience initiale du tirage au hasard de 13 cartes à laquelle s’applique de 
façon réaliste le modèle d’équiprobabilité. 


1.2 Fonction de répartition 


La fonction de répartition est l’instrument de référence pour définir de façon 
unifiée la loi de probabilité d’une variable aléatoire qu’elle soit discrète ou 
continue. Si cette fonction est connue, il est possible de calculer la probabilité 
de tout intervalle et donc, en pratique, de tout événement. C’est pourquoi c’est 
elle qui est donnée dans les tables des lois de probabilité. 


Définition 1.1 Soit X une variable aléatoire, on appelle fonction de répar- 
tition de X, que l’on note Fx, la fonction définie sur R par : 


Fx(x) = P(X < x). 


La valeur prise par la fonction de répartition au point x est donc la proba- 
bilité de l'événement | — æ, x]. En anglais on l’appelle «cumulative distribution 
function» par analogie avec la notion de fréquence cumulée en statistique des- 
criptive. 


Note 1.2 La fonction de répartition est définie pour tout x € R. La question 
se pose de savoir si la connaissance de Fx, donc des probabilités de tous les 
événements de la forme | — æ,x], suffit pour déterminer la probabilité d’un 
événement quelconque. 

Pour une v.a. discrète, il est clair que par soustraction on peut déterminer 
la probabilité de chaque valeur possible et, à partir de là, de toutes les parties 
de Q par simple sommation. Toutefois dans les traités élémentaires où ne sont 
abordées que les v.a. discrètes, l’utilisation de la fonction de répartition n’est 
pas nécessaire, puisque l’on peut se contenter des probabilités individuelles. 
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Pour les v.a. continues, comme il à été brièvement indiqué plus haut, on ne 
peut définir une mesure de probabilité sur toutes les parties de R qui satisfasse 
aux axiomes de la théorie. On est conduit à se restreindre aux événements 
appartenant à la tribu borélienne de R. Cette tribu est l’ensemble des parties 
de R engendrées par les unions, intersections et compléments d'événements 
(éventuellement en suite infinie) de la forme (X < x). On comprend ainsi 
que F'x; permette, en principe, de calculer la probabilité de tout événement. La 
restriction à la tribu borélienne de R n’est pas contraignante car elle contient en 
fait toutes parties concevables de R (points isolés, intervalles ouverts ou fermés, 
unions de tels intervalles, etc.). À vrai dire il faut faire preuve de beaucoup 
d’ingéniosité pour mettre en évidence une partie de R n’appartenant pas à la 
tribu borélienne et nous n’aurons pas à nous préoccuper en pratique de cette 
restriction (tout comme il a été dit dans la note 1.1 qu’on ne se préoccuperait 
pas de vérifier si une fonction est mesurable). 


Propriétés 

1. Fx est non décroissante puisque, pour h > 0, (X < x) C(X <zx+h)et 

donc P(X < x) < P(X <xr+h). 
2. Fx(x) varie de 0 à 1 quand x varie de —cæ à +00, sachant que Fx(x) est 
une probabilité cumulée à partir de —0o. On écrira, en bref, Fx(—o0) = 
0 et Fx(+00) = lc. 

3. Fx est continue à droite en tout x et Fx(x) — Fx(x=) = P(X = x), 
où Fx(x7) dénote la limite à gauche au point x. 

Montrons succinctement cette dernière propriété qui, comme nous allons le 
voir, résulte du fait que l'événement (X < x) intervenant dans la définition 
de Fx(x) inclut la valeur x elle-même (pour des éléments de démonstration 
plus rigoureux des propriétés énoncées ici, voir les exercices proposés en fin de 
chapitre). Par définition, on a : 


| _eg)= lim P(X <x—e). 
CR 


Comme tout événement (X < x —€) ne contient pas x on admettra qu’au 


passage à la limite on obtient Fx(x-) = P(X < x). On a également : 
+ = . = . < 
Fx(x") Lie Fx(x+e) ue P(X <x+e), 


mais ici (X < x +e) contient toujours x et, donc, au passage à la limite on 
obtient Fx(x*) = P(X < x) = Fx(x). Comme les événements (X < x) et 
(X = x) sont incompatibles, on en déduit : 


Fx(x) —= Fx(x ) + P(X = x). 
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En résumé, si la valeur æ considérée reçoit une probabilité non nulle (cas 
discret), alors il y a un saut de discontinuité à gauche d'amplitude égale à cette 
probabilité, sinon Fx est également continue à gauche et donc continue en x. 
Nous revenons sur ces notions dans les cas particuliers des variables aléatoires 
discrètes et des variables aléatoires continues. 


1.3 Cas des variables aléatoires discrètes 


Pour une variable aléatoire discrète X, l’ensemble des valeurs possibles est 
un ensemble discret, fini ou infini, de points que nous noterons en ordre crois- 
sant : 71 < T2 < +. < x; < --- , sans préciser si l’on est dans le cas fini ou 
dans le cas infini. 

En vertu de ce qui vient d’être vu, la fonction de répartition reste constante 
entre deux valeurs possibles et présente un saut de discontinuité dès qu’on 
arrive sur une valeur x;. En x; le saut est égal à la probabilité associée à ce 
point. Immédiatement à gauche de x; la fonction est égale à Fx(x;_1), en x; et 
à droite elle est égale à Fx(x;) (continuité à droite). Cette fonction en escalier 
s'avère peu maniable et il est plus simple, pour définir la loi de X, de recourir à 
sa fonction de probabilité px (appelée aussi fonction de masse de probabilité) 
qui pour tout x; (à = 1,2,...) donne directement sa probabilité px(x:) . 


Prenons l’exemple du nombre d’appels X arrivant à un standard téléphonique 
au cours d’une minute, pour lequel un modèle de loi de Poisson de moyenne 
10 serait approprié (voir cette loi en section 4.1.7). La variable aléatoire X est 
définie par : 


valeurs possibles 0 1 2 -.. k 


probabilités associées  e—19 10610 


ce qui donne le diagramme en bâtonnets et la fonction de répartition de la 
figure 1.1. 


Le passage de la fonction de répartition à la fonction de probabilité et 
inversement est : 


1.4 Cas des variables aléatoires continues 


Formellement on dira qu’une variable aléatoire X est continue s’il existe une 
fonction fx non négative telle que, pour tout x € R, la fonction de répartition 
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Figure 1.1 - Fonction de probabilité et fonction de répartition de la loi de 
Poisson de moyenne 10. 
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puisse s’écrire 
Fx(x) = Î fx(u)du 


La fonction fx est alors appelée fonction de densité de probabilité de X 
ou simplement densité de X. Le fait que Fx s'exprime comme une intégrale 
implique qu’elle est continue partout et, par conséquent, pour tout x on a 
P(X = x) = Fx(x) — Fx(x=) = 0. Plus concrètement, chaque point de la 
droite réelle est immatériel en tant qu’intervalle de longueur nulle et a une 
probabilité nulle en tant qu’événement, mais peut être caractérisé par une den- 
sité de probabilité en ce point. Les événements d'intérêt seront généralement 
des intervalles et pour ceux-ci il sera indifférent d’y inclure ou non les 
bornes. 


La fonction de répartition devient alors particulièrement appropriée pour 
calculer la probabilité de tout intervalle [a, b]. En effet, comme on a : 


(X <= (X<aU(a<X<b), 


les deux événements à droite étant incompatibles et les signes < pouvant être 
remplacés par <, il s'ensuit que : 


P(X <b) = P(X <a) +P(a< X <b) 
P(a< X <b) = P(X <b)— P(X < a) 


d’où, par la définition même de F>, les formules fondamentales : 


a 


On remarquera au passage que, dans le cas discret, les formules se compliquent 
car selon qu’on inclut ou non les bornes de l'intervalle il faut introduire Fx(b=) 
et Fx (a). 


On admettra que, plus généralement, pour tout événement (X € À) on à : 


P(X € À) = Jrad 


En général Fx sera dérivable partout sauf peut-être en quelques points 
qui seront des points de discontinuité pour fx (d’un point de vue purement 
mathématique Fx existerait même si fx était discontinue sur un ensemble 
dénombrable de points). En un point x où elle est dérivable prenons un in- 
tervalle de longueur À centré sur x. La probabilité associée à cet intervalle est 
alors P(r-B<X<x+?) = Fx(x +) Fx(x — à), d'où: 
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P(x-h<X<r+t 
lim te 2 = 2) 
h—0 h 


= Fx(x) = fx(x), 
ce qui justifie l'appellation de densité de probabilité. 


Bien que d’un point de vue pratique, pour les modèles de lois continues, 
ce soit FX qui soit utile - et c’est bien elle qui est donnée dans les tables - 
la représentation graphique de fx est plus parlante car elle met en évidence 
les zones à plus forte probabilité. Chacun sait interpréter intuitivement, par 
exemple, la fameuse courbe en cloche du modèle de la loi de Gauss. 


À titre illustratif, considérons le jeu de loterie où l’on fait tourner une flèche 
sur un cadran avec une zone gagnante, et soit la variable X correspondant à 
l’angle de la flèche, par rapport à une origine déterminée, après expérience. 
S'il n’y à pas de direction privilégiée la densité de probabilité est la même 
partout, c’est-à-dire sur lintervalle [0, 360], et X suit une loi continue uniforme 
(voir section 4.2.1) sur celui-ci. Les graphes de la densité et de la fonction 
de répartition sont donnés en figure 1.2. La probabilité d’un intervalle [a, b], 
correspondant à la surface sous la densité, y est mise en évidence. Notons que 
Fx est dérivable partout sauf aux bornes du support de fx (on appelle support 
de fx l’ensemble des valeurs où elle n’est pas nulle). 


Outre qu’elle est une fonction non négative, la densité a les propriétés sui- 


vantes : 
+00 
| fx (x)dx — 1] , 


— OO 


T— TOO 


la première inégalité découlant du fait que l'intégrale vaut Fx (+00) — Fx(—00) 
(voir la propriété n° 2 en section 1.2), la deuxième étant nécessaire (mais non 
suffisante) pour que l’intégrale converge aux deux bornes. 


Note 1.3 Lorsqu'on aborde la théorie des probabilités par la théorie de la mesure, 
il n’y à pas lieu de faire de distinction entre variables discrètes et variables continues, 
et donc entre px et fx. Dans les deux cas il s’agit d’une densité par rapport à la 
mesure générée par F'x. 


1.5 Notion essentielle de quantile 


Définition 1.2 On appelle quantile d’ordre q de la variable X, où q € [0,1], 
la valeur x, telle que P(X < x,) = q ou, de même, Fx(xa) = q. 
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P(a<X<b) 


X 
-100 400 
F(X 
.- (Lo) 
P(a<X<b) 
b i T T T 1 X 
-100 0 300 200 b 300 400 


Figure 1.2 - Fonction de densité et fonction de répartition de la loi continue 
uniforme sur [0,1]. 
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La notion de quantile (appelée aussi fractile, ou percentile si exprimée en 
pour cent) est directement liée à celle de fonction de répartition. Toute valeur 
de R peut être vue comme un quantile d’un certain ordre. Cette notion de 
quantile est essentielle du fait que l’ordre d’un quantile permet de positionner 
la valeur correspondante sur la distribution considérée. Ainsi le quantile d’ordre 
0,5 , alias la médiane, est une sorte de centre ou milieu de la distribution. En 
statistique apparaîtra la nécessité de fixer des limites de plausibilité pour les 
valeurs d’une loi donnée et l’usage est de prendre pour cela les quantiles %0,025 
et To,975, soit des valeurs à l’intérieur desquelles la v.a. a une probabilité 0,95 
de se trouver. 


Dans le cas continu, à tout ordre q € [0,1] correspond une valeur x, du 
fait de la continuité de F'x. Généralement F%x est strictement croissante sur 
l’ensemble des valeurs de x où 0 < Fx(x) < 1 et x, est donc unique pour q 
€], 1[. 

Dans le cas discret, nous avons vu que Fx est une fonction en escalier et 
il peut donc y avoir tout un intervalle de valeurs possibles si q correspond au 
niveau d’une marche de F>x, ou aucune valeur si q est entre deux marches. En 
pratique on convient de prendre la valeur la plus faible dans le premier cas et 
d’interpoler linéairement entre les deux valeurs possibles x; et x;11 telles que 
Fx(x;) < get Fx(x;11) > q dans le deuxième cas. 


1.6 Fonction d’une variable aléatoire 


Le problème du passage de la loi d’une v.a. X à la loi d’une fonction 
Z = g(X) de celle-ci est fréquent. Considérons, par exemple, la v.a. X ex- 
primant la consommation d’une automobile en litres aux 100 kilomètres. À une 
consommation de # litres/100 km correspond aux Etats-Unis une consomma- 
tion z — 235/x «miles per gallon» (nombre de miles parcourus avec un gallon 
d'essence). Ainsi la v.a. X devient une v.a. 7 = 235/X. 


Dans le cas continu la détermination de la loi de la nouvelle v.a. Z passe par 
sa fonction de répartition F7(2) = P(Z < z) naturellement définie pour tout 
z € R par la probabilité, pour X, associée à l’ensemble des valeurs x telles que 
g(x) € ] — co, z]. En utilisant la symbolique des événements il suffit de résoudre 
l'événement (7 < z) en terme d'événement pour X. 


Note 1.4 Rigoureusement, pour que les probabilités des événements sur Z soient 
calculables il faut que la fonction g soit mesurable (voir note 1.1), c’est-à-dire que 
pour tout événement Æ pour Z (donc borélien de R, voir note 1.2) g_!(Æ) soit 
un événement pour X (donc un borélien de R). Les fonctions non mesurables ne se 
rencontrent pas en pratique. 


Exemple 1.1 Montrons une fonction strictement croissante, une fonction non 
monotone et une fonction strictement décroissante. 
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a) Soit Z = 2X +3: 


Fa(e)= P(Z< 2) = POX+3S 2 = P(X < +) = (=) | 


b) Soit T = X? : 


Fr(t) = P(X? <t) 
= P(-VSX< VE) = Fx(Vi) - Fx(-Vt) sit>0 


0 sit<0 


c) Soit U = c/X où c > 0 et X est à valeurs dans ]0, +o![ . Pour u > 0 on a : 


Fu(u)= PU <u)=P(S<u)=P(X22)-1-Fx (2) 


C 
(2 


et Fy(u) = 0 pour u < 0. Œ 


Si g est strictement croissante comme dans le cas a) ci-dessus, le passage 
de Fx à FzZ est simple puisque Fz(2) = Fx(g-!(z2)). Si g est strictement 
décroissante comme dans le cas c) on a F7(z) = 1— Fx(g""(z)). 

La densité de Z s’obtient simplement par dérivation de Fz. 


Pour les v.a. discrètes, la fonction de répartition, nous l’avons vu, est peu 
commode et l’on passera par la définition de la fonction de probabilité. Dans 
les notations du type de celles introduites en début de section 3, l’ensemble 
des valeurs possibles 2, pour k = 1,2,... est l’ensemble des valeurs engendrées 
par g(x;) pour à = 1,2,.... La probabilité p;(24) est obtenue en sommant les 
probabilités px(x;) des valeurs x; telles que g(x;) = 2x. 


1.7 Exercices 


Les exercices 1.1 à 1.4 sont d’un niveau avancé et sont uniquement donnés 
pour indiquer les éléments de démonstration des propriétés énoncées en section 


1.2. 


Exercice 1.1 * Soit une suite croissante d'événements {A4,}, c’est-à-dire telle 
que À € A9 CC... € À, € -... Montrer que P(Ü An) = lim P(A,). On 
rappelle que l’additivité des probabilités pour des événements incompatibles 
vaut pour une suite infinie d'événements. 

Aide : considérer la suite d'événements {4, N A,_1}. 
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Exercice 1.2 * Soit une suite décroissante d'événements {B,}, c’est-à-dire 
CO 

telle que B1 2 B2 2 +. 2 B, 2 -:.. Montrer que P( NB) = lim P(B,). 
Ti N— OO 


Aide : considérer la suite {B, } et admettre que le complémentaire de À En 


n= 


QG: 
est U By. 
n=1l 


Exercice 1.3 * Montrer que l’on peut écrire Fx(+oo) =1(ie. lim Fx(x) = 


T— +00 
1) et de même Fx(—00) = 0. 
Aide : on utilisera le résultat de l'exercice 1.1 en considérant des événements 
du type ] — co, n] et | — n,+ool. 


Exercice 1.4 * Montrer que P(X = x) = Fx(x) — Fx(x). 
Aide : envisager l'événement {x} comme intersection des termes d’une suite 
décroissante et utiliser le résultat de l’exercice 1.2. 


Exercice 1.5 Soit l'expérience aléatoire consistant à jeter un dé jusqu’à ce 
qu'un six apparaisse pour la première fois et soit X la v.a. «nombre de jets 
nécessaires». Déterminer la fonction de probabilité de X. Vérifier que la somme 
des probabilités sur l’ensemble des valeurs possibles est bien égale à 1. Calculer 
P(1 < X < 3). Ecrire et dessiner la fonction de répartition de X. 

Aide : calculer d’abord P(X > k). 


Exercice 1.6 Soit la fonction f(x) = cx(1 — x) pour x € [0,1] et O0 sinon. 
Pour quelle valeur de c est-ce une densité de probabilité ? Déterminer alors la 
fonction de répartition de cette loi et sa médiane. 


Exercice 1.7 Justifier que la fonction F(x) = 1 —e-7 pour x > 0 et 0 si- 
non, est une fonction de répartition. Déterminer les quantiles d'ordres 0,25 et 
0,75 (appelés premier et troisième quartiles). Soit X une v.a. suivant cette loi, 
calculer P(1 < X < 2). 


Exercice 1.8 Soit X de densité fx(x) — 2x pour x € [0,1] et 0 sinon. 
Déterminer la fonction de répartition et la densité de 1/X . Même question 
pour In(1/X). 


Exercice 1.9 Soit X de loi continue uniforme sur [0,1] et Y = —4In(1 — X) 
avec 0 > 0. Déterminer la fonction de répartition et la densité de Y. 


Chapitre 2 


Espérance mathématique et 
moments 


2.1 Introduction et définition 


Dans cette section nous considérons toujours une v.a. X, soit de fonction 
de probabilité px dans le cas discret, soit de densité fx dans le cas continu. La 
notion d'espérance mathématique d’une variable aléatoire correspond à la no- 
tion descriptive de moyenne pour une distribution empirique de valeurs. Nous 
ferons plus loin (section 2.4) une analogie entre une distribution «théorique» 
(une loi de probabilité) et une distribution empirique (une série d’observations 
numériques). Prenons pour exemple le temps de fabrication d’un produit qui 
connaît des variations aléatoires selon une loi supposée connue. L’espérance 
mathématique va indiquer quel est «en moyenne» le temps de fabrication du 
produit. Pour cela on effectue la somme des valeurs possibles en les affectant 
de poids égaux à leurs probabilités dans le cas discret, l’analogue dans le cas 
continu s'exprimant par une intégrale avec pondération par la densité de pro- 
babilité. 


Définition 2.1 On appelle espérance mathématique de X, si elle existe, 
la valeur notée E(X) telle que : 


E(X) = Ÿ x; px(xi) dans le cas discret, 
i=1 


+00 
E(X) = [ x fx(æ)dx dans le cas continu. 


— CO 


Du point de vue du graphe de fx (respectivement px) cette valeur cor- 
respond au centre de gravité de la surface sous la courbe (respectivement des 
bâtonnets représentant les probabilités des points). En particulier, s’il existe 
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un axe de symétrie, elle se situe au niveau de cet axe (par exemple l’espérance 
mathématique de la loi uniforme sur [0, 360] est 180). 


En bref, E(X) sera aussi appelée la moyenne de X. 


L'existence de E(X) n’est pas garantie si fx (respectivement px) converge 
trop lentement vers zéro à l’infini, comme dans l’exemple suivant. 


Exemple 2.1 La loi de Cauchy est définie par fx(x) = = eee 
L’espérance mathématique se calcule par 


+00 
T 
Le 1-1)? 


mais cette intégrale ne converge pas quand + — + ni quand æ — —® car la 
fonction à intégrer s’y comporte comme 1/x . Plus précisément : 


pour x ER. 


"__z A A re 
Den de So eo) 


qui tend vers +oo quand b — +o et vers —co quand a — —co. La loi de 
Cauchy n’admet donc pas de moyenne (et ceci bien qu’elle soit symétrique par 
rapport à x —0 ). E 


2.2 Espérance d’une fonction d’une variable 
aléatoire 


Soit Z = g(X) une v.a. fonction de la v.a. X. Pour calculer E(7) on peut 
d’abord déterminer sa loi (donc fz ou pz) à partir de celle de X, comme nous 
l’avons fait en section 1.6 . Toutefois il est possible de montrer que l’on peut 
directement calculer E(Z) sur la loi de X, à savoir à partir de fx ou px (voir les 
exercices pour la démonstration dans le cas continu avec une fonction dérivable 
monotone). 


Proposition 2.1 Soit g(X) une fonction de la v.a. X. Alors : 
+00 


E(g(X)) = ;) g(x) fx(x)dx dans le cas continu (si l'intégrale existe), 


OO 


E(g(X)) = Ÿ_g(xi)px (x;) dans le cas discret (si la somme existe). 
i=1 


On voit donc que pour le calcul de E(g(X)) il suffit de remplacer la valeur 
de x par sa valeur g(x) (ou x; par g(æ:)). 
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Exemple 2.2 Considérons X de loi uniforme sur l'intervalle [0, 1]. Sa fonction 
de répartition est Fx(x) = x et sa densité fx(x) = 1 pour x € [0,1]. Soit la 
fonction Z = X?. 

Calculons d’abord E(X) en établissant la loi de Z. Celle-ci est donnée par : 


Fz(2) = P(Z < 2) = P(X?< 2) = P(-Vz<X < V2) = P(X < V2) 


puisque P(X < 0) = 0. Donc FZ(z) = Fx(Vz) = 2 pour z € [0,1]. Ainsi 
f2() = F!(2) = > pour z € [0,1] et 0 sinon, d’où : 
NE 


1 1 3/2 
À: : d= | É put 
o 2VZ o 2 3 3 


Calculons maintenant directement : 


E(Z) = E(X?) = [ Lili El | = . 
= 


Note 2.1 En étendant l'intégrale de Riemann classique à l'intégrale de Riemann- 
Stieltjes, on peut traiter de la même façon cas discret et cas continu. Exposons succinc- 
tement cela dans le cas où l’ensemble des valeurs possibles est borné par l’intervalle 
[a, b]. Dans la mesure où une fonction g est continue sur [a, b] sauf po un ensemble 


dénombrable de points, on peut définir l'intégrale de Riemann f g(x)dx de façon 
simple en subdivisant [a, b] en n intervalles réguliers délimités par : 


A = TX) < T1 < T2 < ++: < En_1 < Tn = b. 


Cette intégrale est alors la limite, quand n — ©, des sommes 


Ÿ_ gx) (Tr — Tr-1). 
k=1 


Dans le contexte qui nous intéresse, l'intégrale de Riemann-Stieltjes relative à Fx est 
la limite des sommes 


D gx) [Fx(æx) — Fx(ax-1)] , 


; b 
notée f, g(x) dFx(x). 

Ainsi, dans le cas discret ne subsistent dans la somme que les sous-intervalles où 
Fy varie, c’est-à-dire contenant au moins une valeur possible x; et, au passage à la 
limite, ne subsistent que ces valeurs. La limite vaut alors 


Date) [Fake — Fete] = D ae) px) 
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Dans le cas continu, par le théorème de la valeur moyenne on peut écrire 
Fx(xx) — Fx(xx_1) —= Jx(Ëx) (tk — Tk_1) où ék E|ty-1, zx et la limite donne 
lintégrale de Riemann usuelle le gx) fx(x) dx. 

Notons qu’en prenant g(x) = 1 sur [a, b], l'intégrale 1e dFx(x), où [c, d] est 
inclus dans [a, b], est égale à Fx(d) — Fx(c), la probabilité associée à l’intervalle 
]c, d], que ce soit dans le cas discret ou dans le cas continu. 


2.3 Linéarité de l’opérateur E(.), moments, 
variance 


Pout toute combinaison linéaire ag(X) + bh(X) de fonctions g et h de X 
on à : 
E(ag(X) + bA(X)) = aE(g(X)) + LE(R(X). 


Ceci découle immédiatement de la linéarité de la sommation ou de l’inté- 
gration. Voyons cela sur le cas particulier a X + b pour le cas continu : 


E(aX + b) = [ +b)fx(x)dx 


— OO 


+00 +00 
-a fx (de +6 | fx(x)dx = aE(X) +0. 
ee, — CO 
Remarquons au passage que l’on peut voir b comme une variable aléatoire 
certaine (discrète), c’est-à-dire prenant cette seule valeur avec probabilité 1 
et, en cohérence avec la définition de l’espérance mathématique, écrire par 
convention E(b) = b. 


On notera bien que dans le cas général E(g(X)) n’est pas égal à g(E(X)), 
par exemple E(X?) £ (E(X))?. 


Nous en venons maintenant à la notion de moments, lesquels sont des 
espérances mathématiques des puissances de X. Leur intérêt vient du fait qu'ils 
permettent de caractériser les distributions. Ainsi nous avons déjà vu que la 
moyenne (puissance 1) fournit une valeur centrale. Les puissances supérieures 
fournissent diverses caractéristiques de la forme de la distribution. 


Définition 2.2 On appelle moment simple d’ordre r de la v.a. X, où r est 
un entier positif, la valeur (si elle existe) x = E(X"). 


Ainsi u1 est la moyenne de X que l’on note plus simplement y (ou px s’il 
y a plusieurs v.a. à distinguer). En fait les caractéristiques de forme reposent 
plutôt sur les moments centrés, c’est-à-dire sur les espérances mathématiques 
des puissances de X — E(X), ou X — y, transformation de X appelée centrage 
de X. 
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Définition 2.3 On appelle moment centré d’ordre r de la v.a. X, où r est 
un entier positif, la valeur (si elle existe) pi. = E((X — u)"). 


Pour r = 1 on a E(X — y) = E(X) — u = pu — u = 0 ce qui caractérise le 
centrage de X. Pour r = 2 on a la variance de X, qui est une caractéristique 
de dispersion de la distribution comme en statistique descriptive et, à ce titre, 
mérite une attention particulière. 


Définition 2.4 On appelle variance de X, la valeur (si elle existe) notée 
V(X), définie par : 
V(X) = E((X — n)°). 
On la note également plus simplement par o? (éventuellement o%). La 
racine carrée de V(X), notée naturellement o (éventuellement ox), est appelée 
écart-type de X. 


Les moments d’ordres supérieurs sont moins utiles et nous les mentionnons 
pour mémoire. 


Le moment centré d’ordre 3, moyennant une standardisation pour éliminer 
l'effet d'échelle, fournit le coefficient d’asymétrie : 


E((X — u)°) 
9 
dont on voit qu’il est nul en cas de symétrie (nécessairement par rapport à pi ). 
Du moment centré d'ordre 4 on déduit le coefficient d’aplatissement ou 


curtose : 
E((X — n°) 


— 3 
g4 


qui indique, en comparaison avec la loi de Gauss, le degré de concentration 
autour de la moyenne (pour la loi de Gauss y} est égal à 304 et ce coefficient 
est donc nul). 


En développant (X — y)" et en utilisant la linéarité de l'opérateur E(.), on 
voit que y}. s'exprime en fonction de Y1,u2,-:- ,u,. En particulier, on trouve : 


us = E((X — n}°) = E(X? — 2uX + j) 
(X?) — QUE (X) + 1? = E(X?) — 2° + 1° 


Ceci constitue une formule très utile pour le calcul de la variance que nous 
conviendrons d’appeler formule de décentrage de la variance : 
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Cette formule s’apparente à celle de la statistique descriptive pour le calcul 
de la variance d’une série numérique (on verra dans la section suivante une 
analogie directe entre variance probabiliste et variance descriptive). Comme en 
statistique descriptive la variance ne peut être négative. De même, on a : 


V(aX + b) = a V(X). 


Pour le voir il suffit d'appliquer la définition de la variance à la v.a. a X +b: 


Notons au passage que si À à une variance nulle c’est nécessairement une 
variable aléatoire certaine. En effet, pour le cas continu : 


+00 
V(X) = | (ep) fx (eds 


— CO 


ne peut s’annuler puisque fx est non négative et ne peut être nulle partout. 
Pour le cas discret : 


VX) = 3 ce -p)px (rs) 


i=1 


ne peut s’annuler dès lors qu’il y a deux valeurs possibles. Inversement, si X est 
certaine sa variance est évidemment nulle, de sorte qu’une variable aléatoire 
est certaine si et seulement si sa variance est nulle. 


Existence des moments 


Si y existe alors les moments d’ordres inférieurs L,_1,l7-2,--: ,11 existent, 
et donc y. existe. En effet la fonction x'-létant dominée par la fonction 
x” au voisinage de +o ou de —c, la convergence de l'intégrale (ou de la 
somme) contenant x” entraîne celle de l'intégrale contenant x”! Notons, 
pour mémoire, que la variance existe si et seulement si u2 existe. Par ailleurs, 
pour l'existence du moment d’ordre r, la convergence de ie Ix'| fx (x)dæ = 


E(|X"|) est une condition suffisante (ou la convergence de S[ |x7| px(x;) dans 
i=1 
le cas discret). 
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2.4 Tirage aléatoire dans une population finie : 
distribution empirique et distribution 
probabiliste 


La relation entre distribution empirique et distribution probabiliste suite à 
un tirage aléatoire permet, en particulier, de mieux appréhender les notions de 
moyenne et de variance d’une v.a. en les reliant aux notions correspondantes 
de la statistique descriptive. Considérons une population de N individus sur 
lesquels s’observe un certain caractère quantitatif Æ (par exemple l’âge arrondi 
en années). Supposons qu'il y ait, dans cette population, r valeurs distinctes 
(avec 2 < r < N) notées æ1,%9,--: ,x, et s’observant avec des fréquences 
relatives (fréquences! divisées par N) p1,p2,--: ,p,. La moyenne observée 

T 
dans la population est donc S x; pi. 
i=1 

Considérons maintenant la v.a. X «valeur d’un individu tiré au hasard dans 
cette population». Par tirage au hasard, on entend que chaque individu a la 
même probabilité 1/N d’être sélectionné. De cette équiprobabilité il découle que 
la probabilité d'observer la valeur x; est la fréquence relative p; de cette valeur 
dans la population (voir note 1.1, deuxième paragraphe). Il y a donc identité 
entre la distribution empirique de Æ dans cette population et la distribution 
(plus exactement la loi) de la v.a.discrète X. En particulier E(X) et V(X) sont 
identiques à la moyenne et à la variance du caractère Æ dans la population 
(en prenant bien le diviseur naturel N pour le calcul de la variance de cette 
dernière). Pour la moyenne, la formule indiquée ci-dessus est la même que celle 
d’une v.a. discrète vue en section 2.1 et il en serait naturellement de même 
pour la variance. 


2.5 Fonction génératrice des moments 


La fonction génératrice des moments nous intéresse dans la mesure où elle 
peut faciliter le calcul des moments d’une loi. Cependant son existence - et donc 
son usage - sera limitée aux lois dont la densité (éventuellement la fonction de 
probabilité) décroît plus vite qu’une exponentielle à l’infini (voir plus loin en 
note 2.4 la fonction caractéristique des moments qui, elle, est toujours définie). 
Nous supposons ci-après qu’elle existe au moins au voisinage de 0 et que la loi 
admet des moments de tous ordres. 


Définition 2.5 On appelle fonction génératrice des moments de la v.a. 
X, si elle existe, la fonction : 


Yx(t) = E(et*). 


INous suivons l’usage anglo-saxon commode selon lequel une fréquence est un effectif et 
une fréquence relative est une proportion. 
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C’est une fonction de t par la variable t introduite dans la fonction aléatoire 


etX. 


Proposition 2.2 Le moment d’ordre r de la v.a. X est donné par : 
br = YO (0) 


où LS est la dérivée d'ordre r de Vx. En particulier l’espérance mathématique 
(tu) de X est la valeur de la dérivée première Ÿ, pour t = 0. 


Note 2.2 En supposant remplies les conditions requises pour les écritures suivantes 
on a : 


+ | © (4% 
E(e*) Es f D te 


k=0 


SO  yk  p+oo & k 
| for = SE | dx (oder = Dr 
k=0 4 k=0 ° 


et, par identification avec le développement de Yx(t) en série de Taylor-Mac-Laurin, 
on a bien la propriété ci-dessus. 


Exemple 2.3 loi exponentielle. 
Cette loi continue, qui dépend d’un paramètre À > 0, a pour densité (voir 
section 4.2.2) : 
Xe sixæ>0 
EE si æ < 0. 


Calculons la fonction génératrice des moments d’une v.a. X qui suit cette loi : 
+00 +0 
Yx(t) = E(et*) — | et? Xe "dx = x | et qr, 
0 0 


puis en posant u = (t— À)x et en supposant t < À pour la convergence 


À L À 


Les deux premières dérivées sont : 


HO MO: 


donc 1 = Yx(0) = Let po = Yx(0) = Z. 
On obtient ainsi rapidement E(X) = 1/À et, par la formule de décentrage, 
V(X) = EX?) - (EX) = $ - $ = 


On pourrait obtenir aussi aisément les moments d’ordres supérieurs. [| 
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Note 2.3 Si l'on sait développer Y x (t)en série entière, Yx(t) = D, axt*, on 
accède directement aux moments. Le moment d’ordre # est en effet le coefficient 
du terme en AA multiplié par k! (voir note 2.2 ci-dessus). Par exemple pour la loi 
exponentielle on a : 


et y est donc égal à k!/XF, comme on l’a vu pour 4 = 1 et k = 2. 


Exemple 2.4 loi géométrique. 


Cette loi discrète, qui dépend d’un paramètre p € [0,1], a pour fonction de 
probabilité (voir section 4.1.4) : 


px(x) =p(1—p)" pour æ =0,1,2,.-.. 


On a alors : _ . 
Dx(e) = D ep(-p} =pD [(-p)el" 
æ=0 x—=0 
qui est définie pour (1 — pe! < 1 ou t < le) . Ainsi : 
p 
OST Gp 
pt - PU = pe 
x() n-(- pet 
A PE EN pQ = pJef-( = pJel 
NT teur (pe 
_ pt —pje[1 — (1 pje +2(1 — pJeil 
Hi -(1-petf 
__pG=peli + (pe 
f — (1 - pjetf 
d’où : 
ne PAP) en st 
p p 
PL a 
2 p3 p? 
et . 
p p p 
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Note 2.4 Fonction caractéristique des moments x 
Elle est définie via une extension à des variables aléatoires à valeurs dans l’en- 
semble des nombres complexes C par : 


Px(t) = E(e"X*) = E(cos(tX)) +iE(sin(tX)). 


Puisque fx est intégrable sur tout R et que Jeite| < 1 pour tout x, ®x(t) est 
définie pour tout {, quelle que soit la loi (le même type d’argument valant pour 
une loi discrète avec px). En fait, la fonction caractéristique des moments per- 
met de définir parfaitement une loi de probabilité, et ceci de façon duale avec la 
fonction de répartition. Moyennant les conditions nécessaires de dérivabilité on à 
Uk = ik (0). On recourra éventuellement à la fonction caractéristique lorsque 
la fonction génératrice n’existera pas au voisinage de 0. Quand cette dernière existe 
on en déduit immédiatement Dx(t) = Yx(it). 


2.6 Formules d’approximation de l’espérance et 
de la variance d’une fonction d’une v.a. 


Ces formules sont utiles car on se heurte souvent à un problème d'intégration 
(ou de sommation) pour le calcul de E(g(X)) ou de V(g(X)). Nous adoptons 
les mêmes notations qu’en section 2.2 et supposons que g est dérivable deux fois 
au voisinage de y — E(X). En développant g(x) en série de Taylor au voisinage 
de u : 


gx) = gui) + (x — p)g'(n) + ——— 


et en négligeant le terme? o((x — u)?) on obtient : 


= gl) + 39" (u) VX), 
puis : 
g(x) — E(g(X)) = (x — y) g'(u) + le — y) —V(X)]g"(u) 
ax) — E(g(X)É + (œ — u)°[g' (4), 
d’où 


V(g(X)) = V(X)[g/(u)° 
Le même type d’approximation peut être obtenu pour les fonctions de plusieurs 
variables définies au chapitre suivant. 


2La notation o(u) est utilisée pour désigner une fonction telle que 2) 
c’est-à-dire qu’elle devient négligeable par rapport à u quand u est petit. 


— 0 quand u — 0, 
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2.7 Exercices 


Exercice 2.1 Soit la v.a. discrète X prenant pour valeurs 0, 1, 2 avec les 
probabilités respectives 0,7; 0,2; 0,1. Soit Y = X? — 1. Calculer E(Y). 


Exercice 2.2 Soit la v.a. X continue, de fonction de répartition Fy et de 
densité fx, et soit la fonction Z = g(X) où g est une fonction strictement 
croissante (continûment) dérivable. En appliquant la méthode décrite en section 
1.6, déterminer la fonction de répartition de Z et en déduire que sa densité 
est fz(z) = fx(g !(2))|[(g71(2))' |. On montrera que ceci reste vrai pour une 
fonction strictement décroissante. 

Établir la propriété énoncée dans la proposition 2.1, i.e. ii g(x) fx(x)dx = 
E(2) (aide : utiliser le changement de variable x = g7!(2) dans l’intégrale ). 


Exercice 2.3 Soit la loi (dite exponentielle double ou loi de Laplace) de den- 
sité : : 
f(x) = se , +€R. 


Montrer que sa fonction génératrice des moments est W(t) = (1 — #2) !. En 
déduire sa variance et son moment d’ordre 4. Calculer son coefficient d’aplatis- 
sement (défini en section 2.3). 


Exercice 2.4 Soit la loi de Pareto (voir section 4.2.6) de paramètres stricte- 
ment positifs a et 0, dont la fonction de densité est : 


He ; cd SiT>a 


0 SiT<a 


1. Calculer la moyenne et la variance de cette loi. Quand ces moments existent- 
ils ? Généraliser à l’existence d’un moment d’ordre quelconque. 
2. Montrer que sa fonction génératrice des moments n'existe pas. 


Exercice 2.5 Soit la v.a. X de densité f(x) = 3x? si x € [0,1] et O sinon. 

1. Calculer E(1/X). 

2. Déterminer la fonction de répartition de Y = 1/X et en déduire sa densité. 
Calculer E(Y) et vérifier ainsi le résultat obtenu au point précédent. 


Les notions de ce chapitre seront largement illustrées au cours du chapitre 
À sur les lois usuelles. 


Chapitre 3 


Couples et n-uplets de 
variables aléatoires 


3.1 Introduction 


Dans ce chapitre nous ne développerons l’étude simultanée de plusieurs v.a. 
que de façon restreinte en ne présentant que ce qui est nécessaire pour préparer 
l'approche statistique ultérieure. 


Dans un premier volet (sections 3.2 à 3.5) nous étudierons les couples de 
v.a. en mettant en évidence la façon de formaliser la relation entre deux quan- 
tités aléatoires. Nous introduirons notamment les notions de covariance et de 
corrélation qui répondent, dans un cadre probabiliste, aux notions du même 
nom de la statistique descriptive. L'étude des relations deux à deux entre plu- 
sieurs variables aléatoires nous conduira, en section 3.8, à introduire la no- 
tation matricielle, en particulier avec la matrice des variances-covariances sur 
laquelle repose essentiellement la statistique «multivariée». En ce sens l’étude 
des couples de variables aléatoires est un point de départ suffisant pour aborder 
la théorie multivariée. 


Dans un deuxième temps (sections 3.6 et 3.7) nous porterons notre at- 
tention sur une suite de n v.a., non pas pour étudier le jeu de leurs rela- 
tions, mais comme prélude aux propriétés des échantillons aléatoires qui sont 
les objets principaux de la statistique mathématique. En effet nous verrons 
qu’un échantillon aléatoire de taille n se définit comme une suite de n v.a. 
indépendantes et de même loi, ce qui correspond à l’observation répétée du 
même phénomène quantitatif. La relation entre ces observations n’est pas per- 
tinente vu leur caractère d'indépendance. 
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3.2 Couples de v.a. 


Nous nous intéressons donc à l’étude de deux entités numériques à priori 
aléatoires, par exemple le poids et la taille d’un individu (cas continu), le 
nombre d’enfants et le nombre de pièces du logement d’un ménage (cas dis- 
cret). Nous nous contenterons, comme nous l’avons fait pour une seule v.a., 
d’une définition informelle. 


Un couple de v.a. peut être vu comme un ensemble { de valeurs de R? 
auquel on associe une mesure de probabilité. Comme pour le cas d’une v.a. 
simple (voir section 1.1) la mesure de probabilité est une fonction portant sur 
l’ensemble des événements, lesquels sont des parties de R?. La fonction de 
répartition conjointe sera l’instrument fondamental pour donner la probabilité 
d’une région quelconque du plan (quoique dans le cas discret on préférera, en 
pratique, recourir à la fonction de probabilité conjointe). 


Dans ce qui suit nous désignerons de façon générale par (X, Y) le couple de 
variables aléatoires. Par simplicité, nous ne considérons que des couples où les 
deux variables sont de même nature, discrètes ou continues, et exclurons le cas 
mixte. 


Définition 3.1 Soit (X,Y) un couple de v.a., on appelle fonction de répar- 
tition conjointe de (X,Y), que l’on note Fx,y, la fonction définie sur R? 
par : 

Fxy(æ,y) = P(X <x,Y < y). 


Dans ces notations, précisons que l’événement (X < x,Ÿ < y) peut se lire 
(X <x)N(Y < y), c’est-à-dire qu’à la fois X soit inférieur ou égal à x et Y 
soit inférieur ou égal à y. 


Note 3.1 En principe la fonction de répartition conjointe suffit à calculer la proba- 
bilité de tout événement car les seules parties de R? probabilisées sont celles générées 
par les unions, intersections et compléments de parties du type (X < x,Ÿ < y), 
formant la tribu borélienne de R? (voir l’analogie avec une v.a. simple dans la note 
1.2). 


Définition 3.2 (cas discret) Soit (X,Y) un couple de v.a. discrètes pouvant 
prendre les couples de valeurs {(x;,y;);i = 1,2,...; j =1,2,...}. On appelle 
fonction de probabilité conjointe la fonction, notée px y, qui donne les 
probabilités associées à ces couples de valeurs, soit, pour tout à et tout j : 


px,y (ti, 5) = PIX = x, Y = y;). 


Définition 3.3 Soit (X,Y) un couple de v.a. continues, on appelle fonction 
de densité de probabilité conjointe la fonction non négative sur R? notée 
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fx,y telle que : 


Fxv(x,y) = Us e fxv(u,v)dudv. 


Par convention, lorsque l’on parlera d’un couple de v.a. continues, on sup- 
posera l’existence de cette fonction. 


Si l’on s'intéresse à un événement sur X quelle que soit la valeur prise par Y, 
on retombe sur la loi de la v.a. X qui, dans le contexte du couple, est appelée loi 
marginale de X. On peut faire le lien avec la fonction de répartition conjointe 
en écrivant : 


Fx(x) = P(X <x) = P(X <x,Y ER) 
= lim P(X <x,Y < y) 
Y— +00 


= Fx,y (x, +00) 


De même Fy(y) = Fx y (+00, y). 


Dans le cas discret il est clair que la fonction de probabilité marginale de 
X, par exemple, peut s’obtenir en sommant la fonction de probabilité conjointe 
sur toutes les valeurs possibles de Y, ï.e. : 


px(æi) = S_pxy (ti, 5). 
j=1 


Pour le cas continu on admettra la relation du même type portant sur les 
densités : 

+oo 

AO CT 
#00 
On peut définir encore des lois conditionnelles pour l’une des variables, 

l’autre étant fixée à telle ou telle valeur. Nous illustrons ceci d’abord dans le 
cas discret qui est plus simple. Aïnsi, reprenant l’exemple introductif où X 
est le nombre de pièces du logement d’un ménage pris au hasard et Y est le 
nombre d’enfants de ce ménage, nous pouvons considérer par exemple la loi 
de X sachant (Ÿ=2). Dans l’analogie entre probabilités et fréquences relatives 
(voir section 2.4), cela équivaut à définir la distribution du nombre de pièces 
parmi les ménages ayant deux enfants. Plus généralement, on définira la fonc- 
tion de probabilité conditionnelle de X sachant (Y = y;) en appliquant la 
règle des probabilités conditionnelles P(A|B) = P(ANB)/P(B), soit, avec des 
notations parlant d’elles-mêmes : 


Le px,y (ti, y) 


Px|Y=y; (Li) — à. =1,2 
pen) = ou) 


pAgees 


On peut évidemment définir de façon similaire py|x=x,(y5). 
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Pour le cas continu, les choses sont plus compliquées car, comme nous 
l'avons vu, la probabilité que Y, par exemple, prenne une valeur donnée est 
nulle. Il n'empêche, même si cela peut paraître paradoxal au premier abord, 
que l’on peut définir une loi de X sachant (Y = y), dès lors toutefois qu’en 
y on ait fy(y) > 0. On voit l'intérêt de ceci dans le cas de l’exemple intro- 
ductif où X serait le poids d’un individu et Ÿ sa taille (en cm). La loi de X 
sachant (Y — 170) serait en quelque sorte, par analogie avec les fréquences rela- 
tives, la distribution des poids parmi les personnes mesurant 170 cm. On peut 
établir la fonction de répartition conditionnelle par un raisonnement limite. La 
probabilité de (X < x) sachant que (y — } < Y < y+ À) se calcule par : 


P(X <z,y—-$<Y<y+i) 

P(y-2<Y <y+à) 
= PAS RTE) PSE, F<y=) 
L <Y <y+b 


2 
. eye U rt D Fxy(x, y) 
Fy(y +4) — Fy(y — À) 
Pour le numérateur, on à utilisé le fait que : 


h h h h 
(M£aY<y+s)=(XE<ry-S<SY<y+S)U(UXE<EY<y—:) 


et que ces deux derniers événements sont incompatibles. En faisant tendre 
h vers 0, on obtient la fonction de répartition conditionnelle de X sachant 
(Y = y), soit, moyennant une division du numérateur comme du dénominateur 
par À : 


… [Fxr,y+5)-FExve,y—5)]/h 
Fxly=,(x) = lim , à . L ] 

h—0 LFy (y î sa Fy(y 2)] /h 
où le dénominateur tend vers la densité marginale de Y en y (voir section 1.4) 


et le numérateur tend vers la dérivée partielle! de F x,y par rapport à y, au 
point (x, y). Cette dernière étant égale à fs fx.y (u, y)du, on à finalement : 


d u,y)du 
Fxiy=y(x) = Le me ÿ 


Par dérivation par rapport à x, on obtient la densité conditionnelle : 


fxiv=,(e) _ fxvy(x, y) 


fr (y) 


dont l’expression rappelle celle de la fonction de probabilité conditionnelle du 
cas discret. 


lTout comme en section 1.4 il a été dit que Fx est dérivable partout sauf peut-être sur 
un ensemble dénombrable de points, Fx y sera dérivable par rapport à x et à y partout sauf 
éventuellement sur une partie de R? de probabilité nulle. 
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3.3 Indépendance de deux variables aléatoires 


L'indépendance d’une v.a. X d’une part et d’une v.a. Y d’autre part se 
rapporte aux occurrences simultanées d'événements sur X et d'événements sur 
Y. Nous devons donc partir du couple (X,Y). 


Définition 3.4 Deux v.a. X et Y sont dites indépendantes si, étant donné 
deux événements quelconques (X € À) et (Y € B), on a : 


P(XEAYEB)=P(XE A)P(YEB). 


Proposition 3.1 X et Ÿ sont indépendantes si et seulement si : 
pour tout (x,y) ER°, Fxy(x,y) = Fx(x) Fy(y). 


Le fait que l'indépendance entraîne que la fonction de répartition conjointe 
soit le produit des deux fonctions de répartition marginales est évident en 
considérant les événements particuliers de la forme (X < x) et (Y < y). Le 
fait que cette condition soit également suffisante pour assurer l’indépendance 
tient au caractère générateur des événements du type (X < x, Ÿ < y) pour l’en- 
semble des événements envisagés dans R°?. Les deux propositions suivantes, dis- 
tinguant cas discret et cas continu, seront particulièrement utiles (on conserve 
les mêmes notations que précédemment). 


Proposition 3.2 Deux v.a. discrètes X et Y sont indépendantes si et seule- 
ment si, pour tout i = 1,2,... et tout j =1,2,..., 


px,v (ti, V5) = px(xi) pr (y). 


Proposition 3.3 Deux v.a. continues X et Y sont indépendantes si et seule- 
ment si, pour tout (x,y) € R?, 


fx,v (x, y) = fx(x) fr (y). 


Proposition 3.4 Si X et Y sont indépendantes, alors pour toutes fonctions g 
et h, les v.a. g(X) et h(Y) sont également indépendantes. 


Ce résultat est immédiat dans la mesure où tout événement sur g(X) peut 
s’exprimer comme un événement sur X et de même pour A(Y) sur Y. 


Note 3.2 Il va de soi que ces fonctions doivent être mesurables (voir note 1.1). 
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3.4 Espérance mathématique, covariance, 
corrélation 


Pour le couple de v.a. (X, Y) nous connaissons déjà E(X) et E(Y), moyennes 
respectives des lois marginales de X et de Y. De façon semblable à ce qui 
a été fait en section 2.2, nous pouvons aussi définir la notion d’espérance 
mathématique d’une fonction g(X,Y}) du couple. En particulier, dans l’ap- 
proche statistique on utilisera abondamment la fonction somme X + Y, que 
nous étudierons plus spécialement dans la section suivante comme une appli- 
cation de la section présente. 


Étant donné g(X, Ÿ) une v.a. à valeurs dans R, selon le même principe qu’en 
section 2.2, nous pouvons directement déterminer son espérance mathématique 
en considérant les images par g de toutes les valeurs possibles du couple (X, Y) 
et en les pondérant par les probabilités (ou densités de probabilité pour le cas 
continu) correspondantes. D’où, moyennant l’existence des doubles sommes ou 
des intégrales doubles : 


E(g(X,Y)) = ÿ d gris y)px,y (mi, 5) dans le cas discret, 


i=1 j=1 


+00 +00 
E(g(X,Y)) = | | g(x,y)fx,v (x, y)dædy dans le cas continu. 


On pourrait également établir la loi de cette nouvelle v.a. Z = g(X,Y) et 
calculer sa moyenne E(7). Mais nous ne traiterons pas ici la façon d’obtenir la 
loi d’une fonction de deux variables aléatoires. 


Proposition 3.5 (linéarité de l’espérance mathématique) Pour la fonc- 
tion aX +bY on a : 


E(aX +6Y) = aE(X) +bE(Y). 


Ceci est une extension du résultat donné en début de section 2.3 et découle 
également de la linéarité des sommations et intégrations doubles. Cette pro- 
priété reste évidemment valable si l’on substitue à X une v.a. g(X) et à Y une 
v.a. h(Y), par exemple : 


E(2X? +3Y°?) = 2E(X?) + 3E(Y°). 


Les notions de moments simples ou centrés vues en section 2.3 s'étendent 
au cas du couple. En bref, on définit le moment simple croisé d'ordres (p, q) par 
E(XPY1) et le moment centré correspondant par E([X — E(X)[P[Y — E(Y)]?). 
Seul le cas p = 1 et q = 1 mérite notre intérêt, conduisant notamment aux 
notions clés de covariance et corrélation entre deux variables aléatoires. 
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Définition 3.5 On appelle covariance de X et de Y, que l’on note cou(X,Y'), 
le nombre (s’il existe) : 


cou(X, Y) = E([X — E(X)IY - E(Y))). 


On remarquera d'emblée que c’est une notion symétrique en X et YŸ, i.e. 
cou(X,Y) = cov(Y, X). 


Proposition 3.6 (formule de décentrage de la covariance) 


cou(X,Y) = E(XY) - E(X)E(Y). 


En effet : 
cov(X,Y) = E(IX — E(X)|[Y - E(Y)]) 
= E(XY - E(X)Y - X E(Y)+E(X)E(Y) 
= E(XY) - E(X)E(Y) - E(X)E(Y) + E(X)E(Y) 
= E(XY) - E(X)E(Y). 


Cette formule est à rapprocher de la formule de décentrage de la variance vue 
en section 2.3. D'ailleurs, on notera que cou(X, X) = E([X —-E(X)|?) = V(X). 


Proposition 3.7 Si X et Y sont indépendantes alors cov(X,Y) = 0. 
En effet il suffit de vérifier qu’en cas d'indépendance E(XY) = E(X)E(Y). 


Faisons-le dans le cas continu, par exemple, en rappelant que l’indépendance 
implique fx,y (x,y) = fx(x) fr (y). 


+00 +00 
E(XY)= f 1 svix oh toéray 


— OO 


= [uno ff ztetode] à 


= oo [° aid 
= E(X)E(Y). 


Notons bien que deux v.a. peuvent avoir une covariance nulle sans 
pour autant être indépendantes. Montrons-le sur un exemple artificiel. 


Exemple 3.1 Soient X et Y deux variables aléatoires discrètes, chacune pou- 
vant prendre les valeurs 0 ,1 ou 2. Les probabilités conjointes sont données à 


l’intérieur du tableau croisé ci-dessous, les marges représentant les probabilités 
marginales. 


34 Statistique — La théorie et ses applications 


Y 
x 0 1 2 
0 0 |4/9) 0 | 4/9 
1 2/9 | 0 |2/9 | 4/9 
2 0 |1/9/ 0 1/9 
2/9 | 5/9 | 2/9 1 
On à : 
4 2 2 5) 2 
PINS ASe., EW)j=2$2u = 
M=i+i=5, EW)=S+2x Si, 
Por) ro ose ee 
a 9 9 3 
d’où cov(X,Y) = E(XY) — E(X)E(Y) = 0. Or X et Y ne sont pas indépen- 
dantes puisque, par exemple, P(X — 0,Y — O0) est nul alors que 
P(X =ODP(T=0)=SXS #0 = 
Propriétés de la covariance 
1. cov(aX + b,cY + d) = accov(X,Y) 
2. cou(X + Y,7Z) = cov(X,Z) + covu(Y, Z) 


Pour montrer le point 1, appliquons la définition de la covariance aux v.a. 
aX +bet cY +d: 


aX +b— E(aX +b)]fcY + d—E(cY + dj) 
aX +b—aE(X) — b][cY + d—cE(Y) — dj) 
= E(a[X — E(X)] c[Y — E(Y)]) = accou(X, Y). 


On voit que les constantes disparaissent en raison des centrages effectués par 
la covariance. Le point 2 se démontre en développant de façon analogue. 


Définition 3.6 On appelle (coefficient de) corrélation linéaire de X et de 
Y, que l’on note corr(X,Y), le nombre (s'il existe) : 


cou(X,Y) 


corr(X,Y) = 
OX OY 


où ox est l’écart-type de X et oy celui de Y. 


Cette formule s'apparente à celle de la statistique descriptive pour le calcul 
de la corrélation linéaire sur une série d'observations couplées. Dans le cas 
particulier du tirage aléatoire d’un individu dans une population vu en section 
2.5, la corrélation descriptive devient la corrélation probabiliste. Supposons 
que l’on étudie la population des ménages résidant dans une ville donnée, les 
variables considérées étant 4 le nombre de pièces du logement et Y le nombre 
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d'enfants. Soit fi; la fréquence relative, dans la population, du couple de valeurs 
(ti, y). Le coefficient de corrélation linéaire descriptif (ou empirique) du lien 
entre nombre de pièces et nombre d’enfants dans cette population est : 


L > (a i Hu 


VE Ti — ©) LE Y5 =) f; 


où 7 = D, x; fi est le nombre moyen de pièces pour l’ensemble des ménages 
avec f; égal à la fréquence du nombre de pièces x; et, de la même façon avec f;, 
y est le nombre moyen d’enfants. En tirant un ménage au hasard, on induit un 
couple de v.a. (X,Y) pour lequel la probabilité associée au couple de valeurs 
(xi,y;) devient f;;. Le numérateur de la formule ci-dessus est alors cou(X, Y) 
et le dénominateur ox 0. 


Nous énonçons ci-après quelques propriétés de la corrélation linéaire, iden- 
tiques à celles de la statistique descriptive. 


Propriétés de la corrélation linéaire 
1. corr(X,Y) = corr(Y, X) 
2. corr(aX + b,cY + d) = corr(X,Y) 


La propriété 1 est évidente. La propriété 2 résulte du fait que o,x46 = a ox 
puisque V(aX +b) = a?V(X) (voir section 2.3) et ay 14 = coy . Le produit ac 
obtenu dans la covariance disparaît donc en divisant par le produit des écarts- 
types. Cette propriété indique que la corrélation linéaire entre deux v.a. est 
invariante dans un changement d’échelle (et même un changement d’origine 
comme pour le passage d’une température en Celsius à une température en 
Fahrenheit), ce qui semble raisonnable pour une mesure de lien entre deux 
entités numériques. 


Proposition 3.8 Quelle que soit la loi conjointe du couple (X,Y) on a : 
—1 <corr(X,Y)<1. 


Démonstration : considérons la v.a. X + AY où À est un nombre réel quelconque. 
Par définition de la variance : 


V(X + AY) = E([X + ÀY — E(X +1Y)F) 

[X - E(X) + A(Y — E(Y))F) 

[X — E(X)P +2AX - E(X)IY - E(Y)] + NY - E(Y)) 

[X — E(X)) +2XE (IX — E(X)IY — E(Y)]) + XE(Y - E(Y)}) 
X)+2Xcou(X, Ph V(Y). 


( 
E( 
St 
E( 
v{ 
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Or V(X + AY) > 0 quel que soit À. Cela implique, pour le polynôme du 
deuxième degré en À ci-dessus, que le déterminant [cou(X, Y )]? —- V(X)V(Y)] 
est négatif ou nul, et donc : 


IR VON, 
et [corr(X, Y)P? = VOOVO) T4 


Notons que si [corr(X,Y}|? = 1 alors le déterminant est nul et, pour la 
racine double Àj du polynôme, on à V(X + ÀX6Ÿ) = 0, c’est-à-dire (voir sec- 
tion 2.3) que X + ÀoŸ est une v.a. certaine. En d’autres termes, il existe une 
dépendance linéaire parfaite entre X et Y. Ceci est à rapprocher du fait qu’en 
statistique descriptive une corrélation égale à +1 équivaut à un alignement 
parfait des points représentant les couples de valeurs. Ce résultat justifie aussi 
l’appellation de corrélation linéaire. 


La corrélation s’annule si et seulement si la covariance s’annule et, donc, 
une corrélation nulle n’implique pas l’indépendance. 


3.5 Somme de deux v.a. 


Etudions la fonction particulière X +Y issue du couple (X, Ÿ ) en vue d’une 
généralisation dans la section suivante à une somme de n v.a. qui, comme il 
a été dit plus haut, sera un objet essentiel de la statistique. Nous savons déjà 
que, par la linéarité, 

E(X +Y) = E(X) +E(Y). 


Proposition 3.9 On a : 
V(X +Y) = V(X) + V(Y) + 2cov(X, Y). 
Si X et Y sont indépendantes, alors : 
VX +Y)=V(X)+V(Y). 
La première équation est le cas particulier À = 1 du développement de 


V(X + AY) dans la démonstration de la proposition 3.8. La deuxième est 
évidente puisque l’indépendance implique une covariance nulle. 


Proposition 3.10 (fonctions génératrices des moments) Si X et Y sont 
indépendantes, alors : 


Vxsv(t) = Vx(t) Pr (#). 
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En effet Yyiv(t) = E(eX+Y) = E(eXteYt) = E(eX*t\E(eYt) puisque 
si X et Ÿ sont indépendantes, alors les fonctions e** et et sont également 
indépendantes (voir proposition 3.4). 


Note 3.3 Il en va évidemment de même pour la fonction caractéristique des mo- 
ments. 


3.6 Les n-uplets de v.a.; somme de n v.a. 


Nous considérons maintenant la généralisation du couple (ou 2-uplet) à 
un n-uplet, c’est-à-dire à un vecteur aléatoire, prenant ses valeurs dans R” 
et que nous noterons (X1,X2,-:::,X,). Comme il a été dit en introduction 
notre intérêt va se porter essentiellement sur le cas particulier d’un échantillon 
aléatoire et c’est pourquoi nous ne nous attardons pas sur la loi conjointe du 
n-uplet. Disons brièvement que la notion de fonction de répartition conjointe 
se généralise naturellement selon : 


Fx; x. x, (41, T2, ,Tn) = P(X < T1, X2 < T2,'°* > Xn < Tn) * 


Les notions de lois marginales et lois conditionnelles se généralisent de la 
même façon. On peut ainsi définir des lois marginales pour tout sous-ensemble 
de composantes du vecteur aléatoire (X1,X2,--:,X,). On peut définir des 
lois conditionnelles d’un sous-ensemble sachant les valeurs d’un autre sous- 
ensemble. La notion de covariance (respectivement corrélation) se généralise en 
matrice des variances-covariances (respectivement des corrélations) des compo- 
santes prises deux à deux (voir section 3.8). La notion d'indépendance dans un 
couple se généralise à la notion d'indépendance mutuelle des n composantes se- 
lon laquelle les événements portant sur tous sous-ensembles sont indépendants. 
Par simplification nous omettrons l’adjectif «mutuelle» qui sera implicite. 


Nous limitons désormais notre étude des n-uplets au cas où les n compo- 
santes ont la même loi de probabilité marginale et sont indépendantes. 
On peut considérer alors le n-uplet comme n observations successives d’un 
même phénomène aléatoire, ces observations étant indépendantes les unes des 
autres (au sens où le fait que, par exemple, la première observation donne 
telle valeur n’influe en rien sur le résultat de la deuxième observation). On voit 
poindre ici de façon évidente l’approche statistique, de tels n-uplets constituant 
précisément ce que nous appellerons plus loin des échantillons aléatoires. 
Pour l’heure nous donnons des résultats sur les fonctions somme et moyenne 
des n composantes (conduisant plus loin à l'étude du comportement de la 
somme ou de la moyenne d’un échantillon aléatoire). 


Proposition 3.11 (proposition fondamentale) Soit X1,X2,---,X, une 
suite de v.a. indépendantes et suivant une même loi de probabilité de moyenne 
u et de variance o?. On a, pour la somme Sy = Xi + X2+..-+X, : 
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et pour la moyenne X» = Sn/n : 


o? 


E(Xh) — H V(Xn) RS: 


n 


Pour $, ces résultats sont la généralisation de proche en proche, d’une part 
de la propriété de linéarité de l’espérance mathématique, à savoir E(S,) — 
E(X1) + E(X2) +: + E(X»), d'autre part de l’additivité des variances pour 
des variables indépendantes, à savoir V(S,) = V(X1) + V(X2) ++ V(X,). 


Pour la moyenne on à : 


n n n 
= Sn 1 no? oo? 
VX) = V (à) Re ee 


4 . La Ex © 
Notons, pour mémoire, que l’écart-type de X,, est Fi 
n 
Des v.a. indépendantes et de même loi sont couramment notées en bref 
variables aléatoires i.i.d., abréviation de «indépendantes et identiquement 


distribuées». Nous adopterons dorénavant cette notation. 


Proposition 3.12 (fonction génératrice d’une somme de v.a. i.1.d.) 
Soit Y(t) la fonction génératrice des moments de la loi commune aux n v.a. 
ii.d., alors Ys,(t) = [Y(t)f”. 


Ceci est une extension évidente de proche en proche de la proposition 3.10 
sur la somme de deux v.a. . 


3.7 Sondage aléatoire dans une population et 
v.a. i.i.d. 


Ayant franchi un pas vers l’idée d'observations répétées, on peut se poser 
la question de savoir comment se traduit en termes probabilistes l'expérience 
consistant à effectuer non plus un seul tirage aléatoire comme vu en section 
2.4, mais n tirages successifs d'individus dans une population. S'agissant d’une 
population bien réelle de N individus, ce contexte expérimental est celui du 
sondage. 
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Un sondage aléatoire simple (par distinction vis-à-vis de plans de sondage 
plus complexes) consiste à sélectionner un premier individu avec équiprobabilité 
de tous les N individus, puis un deuxième individu avec équiprobabilité des 
N — 1 individus restants et ainsi de suite pour les N — 2 individus restants, 
etc. jusqu’à sélectionner n individus. Pour une variable quantitative d’intérêt 
sur les individus, notons X, l’observation aléatoire du premier tirage, X2 celle 
du deuxième tirage, …, X, celle du n-ième tirage. Constatons que, dans ce 
schéma, il n’y à pas indépendance des v.a. X3,X2,---, X,. Par exemple, au 
deuxième tirage, les valeurs possibles (recevant la probabilité +1) sont sujettes 
au résultat du premier tirage. Le sondage n’est donc pas une situation de v.a. 
i.i.d., ce qui complique tant soit peu les choses et explique que la théorie des 
sondages occupe une place à part dans la statistique mathématique. Une façon 
de contourner le problème de la dépendance consisterait à effectuer un sondage 
avec remise (par opposition au sondage usuel précédent que l’on qualifie de sans 
remise), c’est-à-dire à réintégrer dans la population, à chaque tirage, l'individu 
tiré. Mais ceci n’est jamais appliqué en pratique car il y à perte d'efficacité 
due à la possibilité de tirer le même individu plusieurs fois. À supposer que les 
tirages avec remise se fassent bien indépendamment les uns des autres il est 
clair que, dans ce cas, les v.a. X1, X2,---, X, sont i.i.d.. 


Remarquons intuitivement que, si le taux de sondage n/N est faible (par 
exemple un échantillon de taille 1000 dans la population française des individus 
âgés de 15 ans et plus), le sondage sans remise rejoint le sondage avec remise. 
Ceci justifie qu’en pratique on utilise les résultats de la théorie statistique 
classique développés dans les chapitres à venir, dans les situations de sondage. 
Disons que si n/N reste inférieur à 0,1 on a des approximations correctes, 
d'autant plus que d’autres approximations du même ordre de grandeur sont 
souvent inévitables dans la théorie des sondages elle-même. 


Note 3.4 Nous avons considéré des tirages sans remises successifs. Il est équivalent, 
en pratique, de tirer simultanément n individus parmi les N individus de la po- 
pulation, chacun des fs ) échantillons possibles de taille n devant avoir la même 
probabilité 1/(N) d'être sélectionné. 


3.8 Notation matricielle des vecteurs aléatoires 


Pour établir les propriétés d’un p-uplet (X3,X2,---,X,) de v.a. il est com- 
mode d’adopter la notation matricielle. Ainsi, on note : 
X1 
X2 
X — : 
X 
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le vecteur aléatoire de dimension p, à valeurs dans R?. On définit alors l’espé- 
rance mathématique de X, notée E(X), par le vecteur des espérances mathé- 
matiques (si elles existent) : 


EX) 


Si les covariances des composantes prises 2 à 2 existent, la matrice d’élément 
(i,j) égal à cov(X;, X;) est appelée matrice des variances-covariances de 
X et nous la noterons V(X). Notons que cette matrice est symétrique et que 
ses éléments diagonaux sont les variances des composantes. 


Soient maintenant À une matrice (q x p) et c un vecteur (q x 1). Alors la 
relation Y = AX + c définit un vecteur aléatoire Y à valeurs dans KR. 


Proposition 3.13 Soit X un vecteur aléatoire d'espérance E(X) et de matrice 
de variance-covariance V(X) et soit le vecteur aléatoire Y tel que Y = AX +c. 
On a alors : 


E(Y) = AE(X)+c, 


Le symbole Af désigne la matrice transposée de A. Nous omettrons la 
démonstration qui ne présente pas de difficulté et offre peu d'intérêt. 


Indiquons le cas particulier où A est le vecteur ligne (1 x p), 
A= (id, 4e 


pour lequel Ÿ est la somme des composantes de X. On obtient alors la géné- 
ralisation de la proposition 3.9 à p v.a. quelconques : 


où >. est une sommation sur tous les couples (X;, X;) avec à < J. 


3.9 Loi de Gauss multivariée 


La loi de Gauss, ou loi normale, pour une v.a. à valeurs dans R est la 
célèbre courbe en cloche (graphe de sa densité). Elle est décrite en détail en 
section 4.2.4. [ndiquons simplement ici qu’il s’agit en fait d’une famille de lois 
dépendant de deux paramètres qui sont la moyenne y et la variance 9? de 
chaque loi, d’où la notation W{u,a?). Toute fonction linéaire a X + b d’une 
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v.a. gaussienne X est une v.a. gaussienne dont la moyenne et la variance se 
calculent par les règles générales vues en section 2.3 : E(aX + b) = aE(X) +b 
et V(aX + b) = a?V(X). Par une transformation linéaire ad hoc on peut se 
ramener à la loi? W(0 ; 1) appelée loi de Gauss centrée-réduite (celle fournie dans 
les tables). Nous montrons des propriétés analogues pour un vecteur aléatoire 
gaussien. 


Un vecteur aléatoire gaussien X de dimension p est parfaitement défini par 
son vecteur des espérances noté y et sa matrice des variances-covariances notée 
Z. Sa loi est notée W,(u, 2). La densité conjointe de ses composantes au point 
(ti, ds, , 2,17€ RPrest : 


1 1 
OS (2x)r/2(det Z)1/2 exp { 2x er -n) 


où det Y dénote le déterminant de la matrice X et x dénote le vecteur colonne 
de composantes T1,%2,°°: ,Æp. 

Notons que la matrice Y doit être inversible. Sinon le vecteur aléatoire ne 
serait pas réellement de dimension p au sens où il y aurait au moins une liaison 
linéaire exacte entre ses composantes et, par conséquent, ce vecteur prendrait 
ses valeurs dans un sous-espace de dimension inférieure à p. 


Un cas particulier important est celui de la loi dont le vecteur des espérances 
mathématiques est le vecteur nul 0 et la matrice des variances-covariances est 
la matrice identité [,, soit la loi W,(0,1,) que nous appellerons loi de Gauss 
p-variée centrée-réduite par analogie avec la loi usuelle centrée-réduite W(0 ; 1) 
dans le cas où p = 1. Pour cette loi, l’expression de la densité devient : 


1 Es SRE 1e 
ma 52e Ie) 


qui se sépare en un produit de densités respectives à chacune des composantes, 
qui sont les densités marginales de celles-ci. En se reportant à la section 4.2.4 
on peut voir que toutes les composantes ont une loi marginale W(0;1). Ainsi 
ces composantes sont indépendantes. Il est clair que ceci est également vrai si la 
matrice X est diagonale, à ceci près que chaque composante à une loi marginale 
gaussienne dont la moyenne est la composante correspondante du vecteur u et 
la variance est la valeur sur la position correspondante de la diagonale de Y. 
On a donc la proposition suivante. 


Proposition 3.14 Un vecteur aléatoire gaussien a ses composantes indépen- 
dantes si et seulement si la matrice des variances-covariances est diagonale, 
ie. si et seulement si les covariances des composantes prises deux à deux sont 
toutes nulles. 


2Bien que la notation générique soit W(u,o?), nous aurons l'habitude de remplacer la 
virgule par un point-virgule lorsque l’on aura des nombres explicites afin d'éviter la confusion 
gule p P 8 q P 
avec la virgule décimale. 
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Alors que nous avions vu en section 3.4 qu’une covariance nulle n’impli- 
quait pas l’indépendance pour un couple de v.a. de façon générale, dans le 
cas gaussien il y a équivalence entre indépendance et covariance (ou 
corrélation) nulle. 

Nous admettrons le théorème suivant très utile pour caractériser les vecteurs 
gaussiens. 


Théorème 3.1 (théorème de caractérisation) Un vecteur aléatoire est 
gaussien si et seulement si toute combinaison linéaire de ses composantes est 
une variable aléatoire gaussienne. 


On déduit immédiatement de cette caractérisation essentielle que si X est de 
loi W,, (u, 2) alors Y — AX est également un vecteur aléatoire gaussien puisque 
toute combinaison linéaire des composantes de Y est une combinaison linéaire 
des composantes de X et est donc gaussienne. De plus, le fait d’ajouter un 
vecteur de constantes c à un vecteur gaussien ne fait que déplacer la moyenne, 
la densité restant gaussienne avec y + c se substituant à x dans l’expression 
générale donnée plus haut. En reprenant les résultats de la proposition 3.13, 
on en déduit la proposition suivante. 


Proposition 3.15 Soit X un vecteur aléatoire de loi N, (a, 2) et soit le vecteur 
aléatoire Y = AX + c où À est une matrice (q X p) de rang q et € un vecteur 
(q x 1). Alors Y est de loi N,(Au + c, A X A). 


La condition que la matrice A soit de rang maximal (avec q nécessairement 
inférieur ou égal à p) s’impose pour que la matrice des variances-covariances 
A X A de Y soit inversible, i.e. que Ÿ soit réellement de dimension q et non 
pas à valeurs dans un sous-espace de dimension inférieure. 


On montre que l’on peut toujours par un choix judicieux de la matrice A et 
du vecteur c se ramener à un vecteur Ÿ de loi p-variée centrée-réduite. En effet 
on peut d’abord ramener la moyenne à un vecteur nul en passant au vecteur 
aléatoire X — u. Puis, du fait que la matrice X est inversible et symétrique, 
il existe C, une matrice (p x p) de rang p, telle que CC‘ = X. Considérons 
alors le vecteur Y = C!(X — y). Sa moyenne est évidemment nulle puisque 
(Y) = C'E(X - p)= C7 !0 = 0, et sa variance est : 


V(Y) = CV(X) (CT!) = CE (CT!) 
CO ICCNC PT. 


Remarques 


1. En plus d’être symétrique et de rang maximal, la matrice ZX doit être définie 
strictement positive. C'est-à-dire que pour tout vecteur v € R? non nul on a 
vtYZv >0. En effet une combinaison linéaire des composantes de X est de la 
forme v'X, sa variance est vt Y v, laquelle doit rester positive. 
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2. Pour qu’un couple de v.a. forme un couple gaussien, il ne suffit pas que 
chaque v.a. soit gaussienne. En d’autres termes les lois marginales peuvent être 
gaussiennes sans que la loi conjointe soit gaussienne sur R?. En revanche, toutes 
les lois marginales des composantes d’un vecteur gaussien sont des gaussiennes 
en tant que combinaison linéaire particulière donnant un coefficient 1 à cette 
composante et 0 à toutes les autres. 

Par ailleurs si les composantes sont indépendantes et gaussiennes alors la 
loi conjointe est gaussienne multivariée. 


3.10 Exercices 


Exercice 3.1 Le tableau suivant représente la loi du couple (X, Y) : X nombre 
d'enfants dans un ménage, Ÿ nombre de téléviseurs du ménage (pour un ménage 
pris au hasard dans une population de ménages ayant 1 à 3 enfants et 1 à 3 
téléviseurs). 


Y 
L 1 2 3 
1 0,22 | 0,11 [0,02 | 
2 0,20 | 0,15 [0,10 
3 0,06 | 0,07 | 0,07. 


Calculer le coefficient de corrélation entre X et Y. 


Exercice 3.2 Montrer que la covariance entre la somme et la différence de 
deux v.a. indépendantes et de même loi est toujours nulle. 


Exercice 3.3 Soient X et Y deux v.a. indépendantes suivant une même loi de 
Bernoulli de paramètre p (voir section 4.1.2). Donner la loi de X + Y. Calculer 
P(X+Y =0), P(X-Y =0)et P(X+Y =0, X —Y = 0). Les deux va. X+Y 
et X — Ÿ sont-elles indépendantes ? Que vaut leur covariance en application de 
l'exercice 3.2? Quelle conclusion générale en tirez-vous ? 


Exercice 3.4 Soient X et Y deux v.a. indépendantes et soit Z = X + Y. 
Calculer P(Z < z|X = x) et en déduire que fz1x=x(2) = fy (2 — x). 
Déterminer la densité conjointe de Z et de X, et en déduire que fz(z) = 
LT fr -x)fx(x)dr. 
Donner la loi de T' = X — Y. 


Exercice 3.5 Déterminer la loi de la somme de deux v.a. indépendantes, conti- 
nues uniformes sur [0,1]. 

Aide : on déterminera la zone du plan en coordonnées (x,y) définie par 
{(æ,y)|e + y < 2,0 < x < 1,0 < y < 1} et, à partir de la loi conjointe, on 
calculera géométriquement, selon les différents cas pour z, P(X +Y < 2). 
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Exercice 3.6 On mesure la longueur et la largeur d’un terrain rectangulaire. 
La mesure de la longueur est une v.a. X de moyenne px et de variance a%. 
La mesure de la largeur est une v.a. Ÿ de moyenne y et de variance a#.. 
On suppose que ces deux mesures sont indépendantes. Quelle est l’espérance 
mathématique et la variance pour la mesure de la surface du terrain ? 


Exercice 3.7 (marche aléatoire) On se situe sur un axe en une position initiale. 
On se déplace alors par étapes successives et indépendantes les unes des autres 
de la façon suivante. À chaque étape on fait un pas d’un mètre à droite (+1) 
avec probabilité p ou à gauche (-1) avec probabilité 1—p. Soit X le déplacement 
à une étape quelconque. Calculer E(X) et V(X). 

Soit Ÿ l'éloignement de la position initiale après n étapes. Calculer E(Y) 
et V(Y). 


Exercice 3.8 Soit un couple (X, Y ) gaussien bivarié. On suppose que X et Y 
sont de moyenne nulle et on note o% la variance de X, af. la variance de Y et p 
le coefficient de corrélation linéaire du couple. Établir que la densité conjointe 
du couple est : 


1 1 ty Ÿ |} 
; T, LL FER : ji 
Jxy(x,y) 2r0x0y V1 —p? { 2(1 — p?) É Poxoy c$ 


(on notera que les courbes de niveau du graphe de fx y sont des ellipses de 
centre (0,0) ). 


Chapitre 4 


Les lois de probabilités 
usuelles 


Nous abordons ici une sorte de catalogue des lois les plus utilisées dans la 
modélisation statistique. Nous nous efforcerons de justifier l’utilité de ces lois 
en précisant le type de situations où elles sont appropriées. De façon générique 
et sauf mention expresse on notera X une v.a. qui suit la loi décrite. Chaque loi 
fera l’objet d’un symbole spécifique. Par exemple, la loi binomiale de paramètres 
n et p sera notée B(n,p) et on écrira X ++ B(n,p) pour signifier que X suit 
cette loi. 


4.1 Les lois discrètes 


4.1.1 La loi uniforme discrète 


L'ensemble des valeurs possibles est {1,2,3,--- ,r}, r étant un paramètre 
de la loi. Uniforme signifie que chaque valeur reçoit la même probabilité 1/r. 
En fait cette loi est peu utilisée en tant que modèle statistique, mais mérite 
d’être présentée en raison de sa simplicité. On la rencontre dans les jeux de 
hasard, par exemple dans le lancement d’un dé : X est le nombre de points 
obtenus et r est égal à 6. Si le dé est parfaitement symétrique chaque face, et 
donc chaque nombre de points, a la probabilité 1/6 d’apparaître. 


Pour une v.a. X qui suit cette loi, on a : 


E(X) = _ 
PRE D —1) 


En effet : 


= LCA) 2 AA 
Fe à 15 


E(X)= (+244) 
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et, sachant que 1?+2?+...4+7? = r(r+1)(2r+1), on peut calculer la variance 
par la formule de décentrage : 


1 r +1 1,5 
= S(r+1)(2r +1) ( 5 ) ni à 1). 


Ainsi, pour le jet d’un dé, l'espérance mathématique du nombre de points 


est Z et sa variance # . 


4.1.2 Loi de Bernoulli B(p) 


C’est la loi la plus simple que l’on puisse envisager puisqu'il n’y à que 
deux valeurs possibles, codées 1 et 0. On note p la probabilité associée à la 
valeur 1, p étant le paramètre de la loi (la probabilité 1 — p associée à la valeur 
0 est souvent notée q dans les ouvrages, mais nous jugeons cela superflu). On 
écrit X > B(p) et donc : 


valeurs possibles 1 0 


X > BE) = X { probabilités p l—p. 


On peut écrire la fonction de probabilité de la façon suivante : 


PIX =%)=p"(l-p}"* , sef01i} 


On a E(X) =pet V(X) = p(1 — p) puisque : 


E(X)=0x(1-p)+1xp=p 
V(X) = E(X?) - (E(X)) = 0° x (1—p) +17 x p—p° = p(1 —p). 


La fonction génératrice des moments est : 


Ÿ x (t) _ E(et*) = etlp + et — p) 
= pe +(1-p). 


En pratique la v.a. X sera utilisée comme fonction indicatrice d’un 
événement donné au cours d’une expérience aléatoire (par exemple avoir un 
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appareil tombant en panne avant l’expiration de la garantie, être infecté au 
cours d’une épidémie, être bénéficiaire pour une entreprise). X prend la valeur 
1 si l'événement se produit et 0 s’il ne se produit pas à l’issue de l’expérience. 
Dans ce contexte, p représente la probabilité de l’événement considéré. 
La va. X sera une variable de comptage lors de répétitions de l’expérience 
constituant le processus de Bernoulli décrit ci-après et conduisant notamment 
à la loi binomiale. 

Par convention la réalisation de l’événement sera appelée «succès» et sera 
codée 1, sa non-réalisation sera appelée «échec» et sera codée 0. 


4.1.3 Le processus de Bernoulli et la loi binomiale B(n, p) 


Le processus consiste en une suite de répétitions de l’expérience aléatoire de 
Bernoulli, toutes ces répétitions successives étant indépendantes les unes des 
autres. La probabilité de succès à chaque répétition est p. 


Un processus de Bernoulli est donc modélisé par une suite X1,X2, X3 ... 
de v.a. i.i.d., chacune de loi B(p). Dans ce processus on peut s’intéresser à 
différents types de comptages, menant à différentes lois. Nous verrons les plus 
courants : comptage des succès en s’arrêtant à un nombre de répétitions fixé 
à l’avance (loi binomiale), comptage des échecs avant d'atteindre le premier 
succès (loi géométrique) ou le r-ième succès (loi binomiale négative). 


La loi binomiale est la loi de la v.a. X correspondant au nombre de succès 
au cours de n répétitions du processus. Elle est omniprésente en statistique. 
L'application la plus fréquente se situe dans le domaine des sondages. Ayant 
sélectionné au hasard n individus dans une grande population (voir le sondage 
aléatoire simple en section 3.7) on peut «estimer» la proportion p d’indivi- 
dus ayant un caractère! donné (succès). Si le taux de sondage est faible, 
on à vu que l’on pouvait admettre que le tirage sans remise est très proche du 
tirage avec remise. Pour ce dernier la probabilité de succès à chaque tirage est p 
et il y a indépendance des tirages. La v.a. X correspond au nombre d'individus 
ayant le caractère d'intérêt parmi n individus sélectionnés. 


La loi binomiale a deux paramètres n et p, et l’ensemble des valeurs possibles 
est {0,1,2,--- ,n}. Calculons directement la probabilité p(x) d'obtenir x succès 
parmi n répétitions. 


Toute suite contenant x succès et n— x échecs a une probabilité p*(1—p)"* 


en raison de l’indépendance des répétitions successives, et ceci quel que soit 
l’ordre d'apparition des succès et des échecs. Imaginons que nous écrivions la 
succession des résultats avec une séquence de lettres S et ÆE (succès, échec). 
Combien y-a-t-il d’écritures possibles ? Une suite particulière étant parfaite- 
ment définie par les positions occupées par les x lettres S, il suffit de dénombrer 


1Le mot «caractère» est à prendre dans un sens élargi. Ce peut être, par exemple, l’ac- 
quiescement à une opinion proposée dans un questionnaire. 
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combien il y a de choix de x positions parmi n positions. C’est le nombre de 
combinaisons à x éléments que l’on peut former à partir de n éléments : 


D'où p(x) = (*)p"(1— p}"-*, toutes ces suites étant distinctes et donc incom- 
patibles. 


Définition 4.1 On dit que la v.a. discrète X suit une loi binomiale B(n, p) si 
sa fonction de probabilité est : 


p(x) nn (era =D , LT — 0,1,2,-- NUE 
LT 


Proposition 4.1 Soit X1,X2,---,X, une suite de v.a. 1.i.d. de loi B(p), alors 
Sn = >.;_, Xi suit une loi B(n, p). 


Ceci est la traduction du nombre de comptage des succès à travers la variable 
indicatrice de Bernoulli. 


De cette proposition on déduit que la somme de deux v.a. indépendantes de 
lois respectives B(n1,p) et B(no, p) est une v.a. de loi B(n1+n2,p). En effet cette 
somme peut être considérée comme celle de n1 + n2 répétitions indépendantes 
du processus de Bernoulli avec probabilité p de succès. 


Proposition 4.2 Soit X = Bln,p), alors : 


Démonstration : comme X peut être vue comme la somme de n v.a. indépen- 
dantes X1,X2,-:-,X, de même loi B(p), il suffit d'appliquer la proposition 
fondamentale 3.11 sur la somme de n v.a. i.i.d., avec u = p et a? = p(1 — p) 
qui sont respectivement la moyenne et la variance de la loi B(p), pour obtenir 
la moyenne et la variance de X . En appliquant le résultat de la proposition 
3.12 on obtient sa fonction génératrice des moments. On peut vérifier, à titre 
d'exercice, que Y'x(0) = np (voir section 2.5). 0 
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4.1.4 Les lois géométrique G(p) et binomiale négative 


BN(r,p) 


Soit un processus de Bernoulli de paramètre p. La loi géométrique G(p), 
ou loi de Pascal, est la loi de la v.a. X «nombre d’échecs avant de parvenir 
au premier succès». L'ensemble des valeurs possibles est N et la fonction de 
probabilité est : 


px)=p(l-p}),zeN, 


car il n’y à qu’une séquence possible : x échecs suivis d’un succès. 
On à alors : 


E(X) = —2 
VE) = EE 

iX\ P 
DETTE 


Démonstration : la fonction génératrice s'écrit : 


E(e*) = ÿe*p(i —p}* =p D IG - pjet = uen | 
k=0 k=0 


Elle est définie si (1 — pe! < 1 ou t < —In(1 — p), donc au voisinage de 0. La 
dérivée première de cette expression est : 


p(1 — p)e! 
== Her 


et sa valeur pour t = 0 est (1 — p)/p qui correspond à la moyenne. En prenant 
la dérivée seconde au point 0, on obtient E(X?) = (1—p)(2—p)/p°, puis V(X) 
par la formule de décentrage. 


La loi binomiale négative est une généralisation de la loi géométrique où 
l’on considère X «nombre d’échecs avant de parvenir au r-ième succès». Sa 
fonction de probabilité est : 


pe)= (FFE pra pr zen 


En effet pour toute séquence de x échecs et r succès la probabilité est p”(1—p)*. 
Sachant que le dernier résultat de la séquence doit être un succès, il reste à 
dénombrer les séquences avec x échecs et r —1 succès ce qui revient à dénombrer 
les possibilités de choix de x positions parmi x + r — 1 positions, soit ou 
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On a alors : 
E(X) _ r(l a D) 
D 
D 
Yx(t) = nel (au voisinage de 0) . 


Ceci peut être établi grâce aux propositions 3.11 et 3.12, en remarquant qu’une 
v.a. BN/(r,p) peut être considérée comme une somme de r v.a. indépendantes 
de loi G(p). En effet toute séquence à r succès, dont un succès final, peut être 
vue comme une suite de r séquences du type de celles de la loi géométrique. 


Certains auteurs préfèrent à X la v.a. Y «nombre total de répétitions pour 
atteindre le r-ième succès». On a donc Y = X +7, avec : 


z—1l 


LT 
et : EG EE, POS en) 
p p 
4.1.5 La loi hypergéométrique H(N,M,n) 


Soit un ensemble de N individus dont M possèdent un certain caractère, 
que nous appellerons «succès» par analogie avec la loi binomiale, et N — M ne 
la possèdent pas. On effectue un tirage aléatoire sans remise de n individus 
dans cet ensemble. On entend par là que chacun des () échantillons de taille 
n possibles a la même probabilité 1/ (”) d’être sélectionné (voir note 3.4). On 
considère la v.a. X «nombre de succès observés parmi les n individus». On a 
alors la fonction de probabilité : 


Le numérateur correspond au nombre de choix de x individus parmi M et n—x 
parmi N — M. Avec comme valeurs possibles {0,1,...,n} nous supposons que 
M et N — M sont supérieurs à n. Toutefois si n > M alors la plus grande valeur 
possible est M et sin > N — M la plus petite valeur possible est n — (N — M). 
Nous pouvons garder la formule générale ci-dessus en convenant que Éa =0si 
a < b. 

On démontre (le résultat étant intuitif pour la moyenne) que : 


E(X) = n°4 
V(X)=n (1 De 
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On peut faire le rapprochement avec le processus de Bernoulli et la loi bino- 
miale qui correspondent au tirage aléatoire avec remise. Le nombre de succès 
suit une loi B(n,p) avec p — M/N. Dans les deux situations la moyenne est 
identique alors que, pour la loi hypergéométrique, la variance reçoit un «facteur 
correctif de sans remise» égal à (N — n)/(N — 1). Clairement les deux situa- 
tions se rapprochent si le «taux de sondage» n/N diminue. Plus formellement 
on peut montrer que, pour tout x, p(x) tend vers l’expression correspondante 
()p°(1 — p}"-® de la loi binomiale quand N — æ et (M/N) — p. 


TX 


4.1.6 La loi multinomiale 


Il s’agit d’une extension de la situation binaire (succès, échec) de la loi bi- 
nomiale, à une situation «multinaire» à c catégories, de probabilités respectives 
C 
P1:P2, …., Pe avec D y_1 Pr = 1. 


On s'intéresse aux fréquences observées N;,N:,..., N. des différentes caté- 
gories au cours de n observations répétées indépendantes. La fonction de pro- 
babilité conjointe des v.a. N:,N2,..., Nc est : 


n! 
n1,n2 Ne 
PT Pope 
Me! 


P(N = mi No = na, usNe = ne) = = —— 
NNo:. 


si tous les ny (k de 1 à c) appartiennent à {0,1,2,...,n} et vérifient la contrainte 
Din = n, la probabilité étant nulle sinon. Ceci s'établit par le même type 
de raisonnement que pour la loi binomiale. Le terme pftp2? --:ple correspond 
à la probabilité de toute série de n répétitions avec n1 d’entre elles donnant la 
catégorie 1, n2 donnant la catégorie 2,...et n° donnant la catégorie c. Le terme 
avec les factoriels correspond au nombre de séries de ce type possibles (nombre 
de façons d’occuper n1 positions parmi les n successions pour la catégorie 1, 


n2 positions pour la catégorie 2,---,n« pour la catégorie c). 


La loi marginale de N, est clairement la loi B(n, px). Par ailleurs on démontre 
que cov(Nz,N,) = —-npzpr. On peut donc écrire l’espérance et la matrice des 
variances-covariances du vecteur aléatoire N = (N:,N2,.., N.) à valeurs dans 
{0,1,2,...,n}° avec la contrainte 57}, N;=n: 


npi np1(1 — pi) —np1p2 ie —nP1Pe 

np2 —np1p2 np2(1—p2) :--- —NP2Pc 
= | 7 |, vy)= | | 

NPe —nP1Pe —NP2Pe  ‘** Npe(l — De) 


Cette loi est à la base de l’étude des variables catégorielles du chapitre 10. 


4.1.7 Le processus et la loi de Poisson P(\) 


On considère un processus d’occurrences d’un événement donné sur l’échelle 
du temps, par exemple l’arrivée des appels à un standard téléphonique. Pour un 
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temps t > 0 fixé (à partir d’une certaine origine des temps) on définit la variable 
aléatoire X(t) «nombre d’occurrences dans l’intervalle ]0,t]». Par commodité 
on pose : 


pr(t) = P(X(t) =k), oùkEN. 
En bref, on dit qu’on a un processus de Poisson si : 


— il y à une invariance temporelle, à savoir que p4(t) ne dépend pas de l’ori- 
gine des temps, mais dépend uniquement de la longueur t de l'intervalle, 
quels que soient k et t; 

— il y à indépendance des nombres d’occurrences pour deux intervalles dis- 
joints ; 

— pour un très petit intervalle la probabilité d’avoir deux occurrences ou 
plus est négligeable devant la probabilité d’avoir une occurrence exacte- 
ment et cette dernière est proportionnelle à la longueur de cet intervalle. 
Plus formellement : 


pi(h) = Àh +o(h) 


S_ pe(h) = o(h) 
k=—2 


o(h) 


où, rappelons-le, o(h) est une fonction telle que —— — 0 quand À — 0. 


Le paramètre À > 0 caractérise l’intensité de fréquence des occurrences. 


Sous ces hypothèses on démontre que : 


— Àt AL 
pat) = ne REN. 


La loi de Poisson est la loi du nombre d’occurrences dans une unité 
de temps, donc pour t = 1 dans les formulations ci-dessus. Par conséquent on 
dit que la v.a. X suit une loi de Poisson P(À) si sa fonction de probabilité est : 

é AXE 


DE) = EN. 


CO 
DL 
Sachant que Do — €”, la somme des probabilités est bien égale à 1. On a 
k=0 


alors : 


ÉD) = 
PO e 
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Le paramètre À est donc le nombre moyen d’occurrences par unité de 
temps pour le processus. Les démonstrations sont simples : 


ET AD A 2 e A X 
E(X)= DK =D F5 À À 
k=0 k=1 0 
2 Mi : - Ce RE D 
E(X?) = S'k 7 = VU k(k-—1) . +S CE = 
k=0 k=—2 — 
DO —Xyk—2 D A yk-1 
ie e À e À 2 
NY Œ 2) »3 ED X+) 
k=2 k=1 
d’où V(X) = À, 
En etfe AXE er \(Xet)f xGt-D À er x (het) X(et—1 
BORD er de à D ne 
k=0 k=0 k=0 


Remarques 


— On verra plus loin la loi exponentielle qui est celle du temps s’écoulant 
entre deux occurrences successives. 

— On a la propriété additive suivante : soient X1 + P(A1) et X2o > P()) 
indépendante de X, alors X14+X2 + P(A1+)2). Ceci se voit directement 
en appliquant la proposition 3.10 sur la fonction génératrice d’une somme. 


Approximation de la loi binomiale par la loi de Poisson 


Si l’on choisit une unité de temps suffisamment petite pour que la probabilité 
d’avoir plus d’une occurrence devienne négligeable on voit que le processus de 
Poisson peut être rapproché d’un processus de Bernoulli par discrétisation de 
l'écoulement continu du temps en unités successives. 


Montrons que la fonction de probabilité de la loi P(À) est équivalente à 
celle de la loi B(n,p) quand n — œ et p — 0 de façon que np — À. On a 
vu (section 4.1.3) que la fonction génératrice des moments de la loi B(n, p) est 


(4) = [pet +(1—p)]". D'où : 
In Y(t) = nln [pe! Al p)] 

= nln[1+p(e! —1)] 
= n{p(e! — 1) +o(p)]. 

) 


Comme np tend vers À, In Y(t) tend vers (et — 1). Par suite W(t) tend vers 
exp{A(et — 1)} qui est la fonction génératrice de la loi P(À). 


Ceci à un intérêt pratique pour approcher la loi binomiale lorsque l’évé- 
nement «succès» est rare (p est petit), avec un grand nombre de répétitions. 
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On considère que, si n > 50 et p < 0,1, la loi binomiale B(n, p) est approchée 
de façon tout à fait satisfaisante par la loi de Poisson de paramètre À = np. 
On peut aussi utiliser une telle approximation si l'événement «succès» est très 
fréquent (p > 0,9) en intervertissant succès et échec. 


Exemple 4.1 La probabilité pour qu’un réacteur d’avion d’un certain type 
connaisse une panne avant sa première révision est 1/1000. Sachant qu’une 
compagnie d’aviation possède sur ses avions 100 réacteurs de ce type calculons 
la probabilité qu’elle ne rencontre pas plus de deux problèmes avec ces réacteurs 
avant la première révision. Le nombre de réacteurs à problème est une v.a. X 
de loi B(100 ; 0,001) qui peut être approchée par la loi P(0,10). Donc : 


e701,0,1 | e-01,(0,1)? 
1! 2! 


= 0,99985. 


Le modèle de Poisson s’applique dans de nombreuses situations de comp- 
tages par unité de temps ou par unité de surface : nombre de sinistres par an 
pour un assuré, problèmes de files d'attente (arrivées à un guichet, nombre de 
personnes servies), particules émises par une source radioactive. Pour un comp- 
tage par unité de surface (par exemple le nombre de couples d’une espèce d’oi- 
seaux nichant par quadrat d’une forêt), le modèle correspond à une répartition 
spatiale au hasard. 


4.2 Les lois continues 


4.2.1 La loi continue uniforme U{a, b] 


On dit que X suit une loi uniforme sur l'intervalle fini [a, b] si sa densité 
est constante sur [a, b] et nulle à l’extérieur de cet intervalle, soit : 
1 
fu)= À ba 


0 sinon 


si a<æx<b 


Nous en avons déjà vu une illustration en section 1.4. 
Sa fonction de répartition est : 


0 sit < 4 
F(x) = — si a<x<b 
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On peut aisément vérifier que : 


mx)= ©, 
ven = LE 


La loi uniforme de référence est la loi {4[0 , 1] correspondant aux générateurs de 
nombres au hasard des logiciels (fonction KRANDOM» ou &ALEA»). À partir 
d’un tel générateur on peut produire des nombres au hasard sur [a, b] par la 
transformation y = (b— a)x + a. Nous verrons en section 4.3 comment simuler 
une loi quelconque à partir de ces «nombres au hasard». 


4.2.2 La loi exponentielle £{()) 


Comme mentionné dans les remarques sur le processus de Poisson, la loi 
exponentielle correspond à la variable aléatoire X du temps s’écoulant entre 
deux occurrences successives lors d’un tel processus. Avec les notations de la 
section 4.1.7 la probabilité qu’il n’y ait aucune occurrence dans un intervalle 
de temps de longueur t est égale à po(t) = e-", d'où P(X > t) = et et 
l'expression de la fonction de répartition P(X < t) : 


1—-e M sit>0 
F(t) = 
0 si t < 0 
puis de la densité, par dérivation : 
” je + cts 0 
FE) = 
0 sit <0 


On a déjà montré (voir section 2.5) que : 


E(X) = > 
VOX) = + 


Logiquement, puisque À est le nombre moyen d’occurrences par unité de 
temps, À est la durée moyenne entre deux occurrences successives. On repa- 
PS, >; d'A 
ramétrise souvent la loi en posant 0 — 1/X, d’où : 
æ 
np 
FC) TT 0 € > À > 0, 


qui met en évidence sa moyenne D, la variance étant alors 02. 
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La loi exponentielle est également le modèle de durée de vie pour un 
système idéal sans usure, + étant l’espérance de vie du système. En effet on 
peut voir que l’âge du système ne joue aucun rôle quant aux chances de survie 
à un horizon donné puisque : 


P(X>t+Rh)N(X > t)) 


P(X>t+hX>t) = 


P(X > t) 
PAST). AN no 
PRE D Ne PUR 


qui ne dépend pas de t. 


4.2.3 La loi gamma l'(r, À) 


Soit X1,X2,.., X, une suite de r variables aléatoires 1.i.d. de loi £E(XÀ) et 
soit T = 57;_, X;. On démontre (voir exercices) que T' suit une loi de densité : 


)\" 
a" le six >0 


fe)=<" 1) 


0 si x < 0 


laquelle définit la loi l'(r, À). Des propriétés des sommes de v.a. i.i.d. on déduit 
immédiatement : 


ET}= ï 
V(T) = 5 
Pr) =(—), site. 


Vérifions que la densité ci-dessus est bien celle qui conduit à cette fonction 
génératrice des moments : 


Yr(t)=E tT = Fe tx À" r—1l À 
T(t) (e”) | e = e x 


x +00 
= Di | a le At Gr 
1 im : JO 


= À" 1 Le uw le du = À 
cf) =) Do 7 (= 


en vertu de la relation classique Le u"-le du = (r —1)!. 


La loi l'(r, À) modélise en particulier le temps séparant une occurrence de 
la r-ième suivante dans un processus de Poisson. Elle joue un rôle similaire à 
celui de la loi binomiale négative dans le processus de Bernoulli. 
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On peut généraliser la loi l'(r, À) à une valeur de r non entière (mais stricte- 
ment positive) en remplaçant, dans la densité, l’expression (r — 1)! par la fonc- 
tion gamma d’Euler définie, pour tout réel positif, par F'(r) = f° x"-le-*dx, 
dont la loi a hérité son nom. 


La fonction de répartition de cette loi n’est pas explicite et nécessite le 
recours à un logiciel (ou des tables, mais celles-ci ne sont pas très courantes). 


4.2.4 La loi de Gauss ou loi normale W{(y, 0°) 


Il s’agit, comme on sait, de la loi de probabilité fondamentale de la statis- 
tique en raison du théorème central limite que nous verrons en section 5.8.3. 


On dit que la variable aléatoire X suit une loi de Gauss, ou loi normale, 
notée W(, a?), si elle a pour densité : 


ft) = = ex { en), pe 


Les paramètres sont notés y et ao? du fait qu’ils correspondent respectivement 
à la moyenne et à la variance de la loi (voir la démonstration ci-après), o étant 
donc son écart-type. Le graphe de la densité est la fameuse courbe en cloche 
symétrique autour de la valeur y. 


Pour y = 0 et o? = 1 on a la loi de Gauss centrée-réduite N(0;1) dont la 
fonction de répartition, notée ®, est donnée dans les tables statistiques usuelles : 


1 + 22 
P(x) — =) e 7 dz. 


Montrons que si X = NW{u,o?) alors sa transformée centrée-réduite 
Z = St suit la loi W(0;1). Soient Fx et FZ les fonctions de répartition 
respectives de X et de Z, alors : 
X — y 
© 


F3(Z < 2) = P(Z< 2) = P( <z)= P(X <yp+20) = Fx(u +02), 


et en dérivant F7 et Fx par rapport à z, on a: 


1(u+ 20 — u}? 1 1,2 
2 o? ‘ 


robe _ ee { 


En inversant le raisonnement on montre que si Z + NW(0;1) alors 
X = p+0Z x N{(yu,0?) et, plus généralement, ceci implique que toute fonc- 
tion linéaire d’une v.a. gaussienne est une v.a. gaussienne. 


En vertu de cette propriété le calcul de P(X < x) se ramène à un calcul de 
probabilité sur la variable gaussienne centrée-réduite. Mettons en évidence la 
règle de calcul par la proposition suivante. 
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Proposition 4.3 Soit X > N{(u,0°), alors : 


PX<a=P(z< TE) oùz NO) 


soit encore : P(X <x)=® (£ — 2) ; 


Exemple 4.2 Soit X => W(10;4). Calculons, par exemple, P(X < 13) : 


13 — 10 
2 


P(X <13) = P(Z< )= P(Z <1,5) = &(1,5) = 0,9332 


par lecture de la table de la loi normale centrée-réduite. 


En lecture inverse déterminons le quantile d'ordre 0,95 de la loi de X. Pour Z 
on lit dans la table que le quantile d’ordre 0,95 est 1,645, i.e. P(Z <1,645) —0,95. 
D'où P(E2 <1,645) —0,95 et P(X < 10+1,645x 2) —0,95. Pour la loi de X 
le quantile est donc 10+1,645x 2 —13,29. 5 


D'une façon générale P(X < x) est obtenu en lisant la probabilité d’être 
do h 


inférieur à dans la table et le quantile d'ordre a de la loi de X est égal 


à u +240 où za est le quantile d’ordre a de la table, i.e. tel que D(2,) = a. 


Calculons la fonction génératrice des moments de Z < W(0; 1) : 


Yz(t) = E(eïiZ) = LE et? - e?*"dz 
2% V2T 
=] ga t ed = | e-2% du 
V2T J_ 27 J_> 
D'où : 
+2 
Y(t) = eZ. 


Par cette fonction, vérifions que la moyenne et la variance de Z sont bien, 
respectivement, 0 et 1 : 


Pour X = u + oZ on a done E(X) = u et V(X) = o?V(Z) = o?, ce qui 
justifie la notation W(u, o?). 
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On peut directement accéder aux moments de tous ordres par le dévelop- 


ge ES #2 | 
pement en série entière de ez (voir la note 2.3) : 


8 LE _ 1 

RES 2 = 2s 

een 
s=0 


s=0 


d’où : 

_ (25)! 

7 28!" 

Du fait que la densité est une fonction paire les moments d’ordres impairs sont 
nuls. On notera, pour mémoire, que 4 = 8. 


258 


Pour X = Nu, o?), comme (X — y)" = o"Z", on obtient immédiatement les 
moments centrés : 


et, en particulier, yh = 30%. 
De plus : 
Vx(E) = exp(tu + o D , 


Car : 


E(et*) = E(et(#+o2)) = cp(e67) = elle + : 


Nous donnons maintenant une proposition essentielle pour les développements 
statistiques. 


Proposition 4.4 Toute combinaison linéaire de v.a. gaussiennes indépendantes 
est une variable aléatoire gaussienne. 


Démonstration : il suffit de démontrer cela avec deux v.a., l'extension à plusieurs 
v.a. se faisant de proche en proche. De plus, on a vu que si X est gaussienne alors 
Y = aX est gaussienne. Il suffit donc de démontrer la proposition pour Yi +Y2, 
où YA et Y2 sont indépendantes. Soient Y1 = Nu, a?) et Ya > N'(u, 9ë). 
Selon la proposition 3.10 on a : 


2 52 
LA RR (t) — y, (E)Yy, ( 5 = etmt et oturt t 


= et(nith2)+3(0i+03)€ 


qui est la fonction génératrice des moments de la loi W(u1 + ua, 0? +03). D 


Notons que la proposition n’est pas vraie pour des v.a. dépendantes. Ainsi 
deux v.a. peuvent être marginalement gaussiennes sans pour autant que toute 
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combinaison linéaire de celles-ci soit gaussienne, car cela dépend de la nature 
de leur loi conjointe. 


Quelques valeurs clés de la loi de Gauss 
À partir de la lecture dans la table de la loi de Gauss centrée-réduite des 
quantiles d’ordres 0,975 ; 0,995 et 0,9995, soit : 
®(0,975) — 1,96 
P(0,995) = 2,57 
®(0,9995) — 3,30 , 


on déduit ces intervalles de dispersion autour de la moyenne pour X =+ Wu, o?): 


P(u—1,96 0 < X < ph + 1,960) = 0,95 
P(u — 2,57 o < X < +2,57 o) = 0,99 
P(u 3,300 < X < p+ 3,300) = 0,999. 


La première égalité est souvent résumée en disant que la probabilité d’obtenir 
une valeur dans l’intervalle «moyenne plus ou moïns 2 écarts-types» est de 
95% (plus exactement 0,9544). En termes de fréquence des observations on à 
coutume de dire que, grosso modo, 95% des observations doivent se situer dans 
cet intervalle. Cette propriété est d’ailleurs souvent étendue de façon tout à fait 
abusive à tout type de loi. 

La troisième relation montre qu’il n’y a pratiquement aucune chance de trouver 
une observation au-delà de 3 écarts-types de la moyenne. 


4.2.5 La loi lognormale LN{(, 0?) 


Cette loi fournit souvent un bon modèle pour les variables strictement po- 
sitives ayant une distribution asymétrique avec allongement vers les valeurs 
élevées, en particulier dans les domaines biologique (poids des personnes, par 
exemple), économique (distribution des revenus) et physique. 

Soit X une v.a. à valeurs strictement positives, on dit qu’elle suit une loi 
lognormale de paramètres u et o?, notée LN (ui, o?), si In X <> N{u, a?). 


Sa densité, peu utilisée car on préfère généralement se ramener à l’échelle 
logarithmique, peut être déduite de celle de la loi de Gauss par la transformation 
exponentielle selon la méthode du changement de variable exposée en section 
1.6. Posons Ÿ = In X, on a : 


F(&)= P(X £a) = P( <a) = PO <a) = 8 (RTE) | 


(ox 


En dérivant, on obtient aisément : 
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Comme P(X < x) = P(log X < log x) les quantiles restent en correspondance 
par la transformation exponentielle et, par exemple, la médiane est e!. Il n’en 
va pas ainsi des moments qui peuvent toutefois se déduire directement de la 
fonction génératrice de la loi de Gauss W{(yu,a?). En effet, en posant encore 
Y =InX, on a: 


k292 


EX) = HET Je rh een 


soit, en prenant k = 1 puis k = 2 : 
E(X) _ et+3° 
E(X?) - e24+20? 
d'où: V(X)=EmTT (er 21). 


4.2.6 La loi de Pareto 


Cette loi a été introduite pour modéliser la distribution de revenus 
supérieurs à un seuil donné, puis s’est avérée utile pour d’autres phénomènes 
(par exemple la distribution de la taille de grains de sable passés au travers d’un 
tamis). Elle a deux paramètres strictement positifs : le paramètre de seuil a et 
un paramètre de forme 4. La fonction de répartition et la fonction de densité 
sont : 


0 
1 (©) sSitT>a 


0 sSiT<a 


a\0+1 : 
=) SiT > 


0 
et f(x)=4 à È 
0 


siT<a 


La densité étant une puissance de x, on calcule aisément (voir exercices du 
chapitre 2) : 


E(X) = En (n'existe que si0 > 1), 


Oa? 


= gare 


n'existe que si 4 > 2). 


Sa fonction génératrice des moments n'existe pas (sa fonction caractéristique - 
voir note 2.4 - ne s’exprime pas par des fonctions usuelles). 


4.2.7 La loi de Weïibull W(X\,a) 


Cette loi généralise la loi exponentielle pour modéliser des durées de vie. 
Elle intervient également dans les problèmes dits de valeurs extrêmes (par 
exemple l’occurrence de crues exceptionnelles d’une rivière). La fonction de 


62 Statistique — La théorie et ses applications 


répartition et la fonction de densité de cette loi, notée W(X, «) où À et « sont 
deux paramètres strictement positifs, sont : 


1—e XX gix>0 arte gi x > 0 
F(x) = et f(x) = 
0 si x < 0 0 si x < 0 


Quand & = 1 on à la loi E(À), quand a < 1 la densité décroît depuis +co, 


quand a > 1 elle admet un maximum (mode de la loi) au point [£(2=1)]1/«. 


On montre que : 


F(1+1) 
A1/a 0 


r{+2)-12(41+1) 
X2/a 


EX) = V{X) = 


où est la fonction gamma d’Euler (voir section 4.2.3). 


Montrons quelques particularités utiles pour la modélisation de durées de 
vie. 


Proposition 4.5 Si X > E(X) alors X1/® suit une loi W(X, à). 


Cette proposition est évidente par le principe du changement de variable ex- 
posé en section 1.6. Ainsi pour a > 1 cela revient à une contraction de l’échelle 
du temps et donc à introduire un effet d’usure. Considérons en effet, comme 
nous l’avons fait pour la loi exponentielle, la probabilité qu’un système «sur- 
vive» un temps À fixé (h > 0) au-delà du temps t et étudions cette probabilité 
comme une fonction p de t. On a : 

: PCA DÉHR)  _Xern 
ptt) = P(X >t+hIX > t) = PX Sd =e : 
La fonction (4 + h)* — {% étant croissante pour à > 1 et décroissante pour 
a < 1, la probabilité diminue avec le temps pour a > 1 ce qui correspond bien 
à un phénomène d’usure. Au contraire pour @ < 1 on a une probabilité qui 
augmente (on peut penser ici à la durée de chômage où plus le temps s'écoule 
plus il est difficile d’en sortir). 


4.2.8 La loi de Gumbel 


C’est une autre loi de modélisation de valeurs extrêmes dont la fonction de 
répartition est : 


Ta 


F(&) = eup {—e 6 } , TER (B>0). 


On montre que sa moyenne est à +78, où 7 =0,577... est la constante d’Euler, 
et que sa variance est 7?/0?/6. 


La valeur a correspond à son mode. Sa fonction génératrice des moments 
est Y(t) — eT(1 — Bt). Elle est liée à la loi limite du maximum d’une série de 
n observations quand n tend vers l'infini, pour une grande variété de lois. 
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4.2.9 La loi bêta Beta(a, 5) 


Cette loi fournit un modèle pour les mesures comprises entre O0 et 1, en 
particulier pour des taux ou des proportions. Sa densité est : 


T(a+8+2) 
f(æ)=< Fa+1)7(8+1) 
0 si æ €]0;1[ 


x(1—x)f sixel;1l 


avec @a > —let f > —1. 


Pour a = 5 = 0 on a la loi uniforme {{[0, 1]. Pour a et B strictement positifs 
elle admet un mode en x = a/(a + B). 


Sachant que, pour tout à > —1 et tout 8 > —1, on a : 


dd __F(a+1)r(8+1) 
TECRLE T(a+B+2) : 


on calcule aisément, pour X > Beta(a, B) : 


: (a +1)(8+1) 
TS Go moe) 


4.3 Génération de nombres issus d’une loi 
donnée 


Il n’est pas toujours possible d'étudier de façon analytique le comporte- 
ment de modèles, d’estimateurs ou de statistiques de tests en raison de leur 
complexité. Dans ce cas on recourt à des simulations d'échantillons pour 
suppléer à l’absence d'éléments théoriques et nous nous réfèrerons parfois, dans 
les chapitres ultérieurs, à des résultats obtenus de cette façon. Cette approche 
constitue l’essence de la méthode de Monte-Carlo. 


Tous les logiciels offrant des possibilités de calcul disposent d’un générateur 
de «nombres au hasard» (fonction RANDOM, ALEA, etc., voir section 4.2.1) 
qui correspondent à des observations issues d’une loi {{[0 , 1] ou que l’on peut 
considérer comme telles. Car, en réalité, ces nombres que l’on qualifie plutôt de 
pseudo-aléatoires, sont engendrés par un mécanisme purement déterministe. 


Supposons que l’on veuille générer des réalisations d’une loi continue de 
fonction de répartition F' strictement croissante et que l’on dispose de la fonc- 
tion inverse F1, soit de façon analytique, soit de façon numérique (de nom- 
breux logiciels statistiques ou autres proposent, par exemple, les fonctions 
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«Gauss-inverse», «exponentielle-inverse», etc.). Étant donné une variable aléa- 
toire U de loi {[0 ,1], considérons la fonction X = F-!(U) et déterminons sa 
fonction de répartition en appliquant la méthode de la section 1.6. On a : 


PIX<Sa) =P(FU)EX 
= P(U < F(x)) = F(x) 


puisque, pour la loi uniforme, P(U < u) = u. Donc X suit la loi F. 


Ainsi, à partir d’une suite de nombres au hasard u1,u2,--- , un on peut ob- 
tenir une suite de nombres %1,%9,--- ,æ, issus de la loi F', par la transformation 
Lie Et (u;). 

Pour la loi £(À), par exemple, F(x) = 1 —e-" et la fonction inverse est 
explicite : F7 1(x) = —£{In(1 — x). On utilisera alors la transformation x; = 

Lin(l — u; 
— > In(1 — wi). 


Pour une loi discrète la méthode ci-dessus n’est pas applicable du fait que F, 
étant une fonction en escalier, n’est pas inversible. Dans le cas où le nombre de 
valeurs possibles a1 < a2 < --: < ax < --: < a, est restreint on peut l’adapter 
de la façon suivante : 


si u; E[0,F(ai)| alors générer x; = a 
si Ou; E[F(ax-1), F(ax)[ alors générer x; = &k 


si uw; E[F(a;_1),1] alors générer x; —a,., 


le choix d'ouvrir ou de fermer chaque intervalle d’un côté ou de l’autre n’ayant 
pas d'importance si les u; sont générés avec suffisamment de décimales. 


En particulier on peut produire un processus de Bernoulli de paramètre p 
en donnant la valeur 1 si u; < p et 0 si u; > p. 


Il existe toutefois des méthodes de génération adaptées et plus efficaces 
pour chaque loi que l’on trouvera dans les ouvrages consacrés spécifiquement à 
la simulation. 


4.4 Exercices 


Exercice 4.1 En transformant linéairement la v.a. de la marche aléatoire (voir 
exercices du chapitre 3) en une v.a. de Bernoulli, établir la loi de cette marche 
aléatoire après n pas. 


Exercice 4.2 Montrer directement que la fonction génératrice des moments 
Ÿ(t) de la loi binomiale négative est p'/[1 — (1 — p)e!]" et qu’elle est définie 
pour t < —In(1 — p). 
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Aide : substituer à (1 — p)® l'expression [(1 — pJe!]". 
En écrivant que la somme des termes de la fonction de probabilité vaut 1 et en 
dérivant terme par terme par rapport à p, déduire l’expression de la moyenne 


de la loi. 


Exercice 4.3 * (Approche historique de Moivre mettant en évidence la loi 
de Gauss) Soit X => B(n,p), montrer que pour n — c, p restant fixe, la 
probabilité P(X) = x est équivalente à la fonction de densité en x de la loi 
de U x N(np,np(1 — p)) ou encore à P(x — + < U < x + 5). On admettra 
intuitivement que les valeurs d'intérêt pour x (à probabilités non négligeables) 
tendent vers l'infini quand n — © et que, pour ces valeurs, ? — p. 

On utilisera pour la démonstration la formule de Stirling? : 

nl = V?re "n"+5 (1 + o(1)) soit nl + ÿ2re "n?+2 


Exercice 4.4 Soit X => B(n,p). Montrer que si n — œ et p — 0 de façon que 
np reste constant, alors P(X = x) tend vers la probabilité correspondante de 
la loi de Poisson de paramètre np. 


Aide : on admettra que md 


— 1 quand n — ce. 

Exercice 4.5 Soit X => H(N, M,n). Montrer que, quand N — © et _ — p 

(non nul), P(X = x) tend vers la probabilité correspondante de la loi B(n, p). 
Aide : comme pour l'exercice précédent. 


Exercice 4.6 Soient X, et X2 deux v.a. indépendantes de Poisson de pa- 
ramètres respectifs À1 et À2. Montrer que la loi conditionnelle de X3 sachant 
X1 + Xo = nest une loi binomiale. 


Exercice 4.7 Soit X > G(p). Déterminer P(X > n) et montrer que la proba- 
bilité P(X > n+k|X > n) est indépendante de n. [Note : Ceci est à rapprocher 
de la propriété analogue de la loi E(À). La loi G(p) peut modéliser la durée de 
vie d’un système sans usure, en temps discret d’intervalles réguliers]. 


Exercice 4.8 Soit X => {[0,1], montrer que Y = (b — a)X + a suit une loi 
Ua, b]. 


Exercice 4.9 Montrer que la fonction génératrice des moments de la loi l'(r, À), 
pour r > 0 non nécessairement entier, est Y(t) = [A/(À —t)]". Pour quelles va- 
leurs de t est-elle définie ? En déduire sa moyenne et sa variance. [Rappel sur 
la fonction gamma d’Euler : l'(r) — id x" le dx avec r > 0]. 


Exercice 4.10 En s’appuyant sur un processus de Poisson sous-jacent, déter- 
miner pour r entier la fonction de répartition de la loi l'(r, À). En déduire sa 
densité. 


2Dans l'expression de cette formule le terme o(1) indique une fonction qui devient 
négligeable devant 1 (donc qui tend vers zéro) quand n tend vers l'infini. 
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Exercice 4.11 Soit X > l'(r, À), montrer que r X suit une loi l'(r, à). Montrer 
que ÀX suit une loi l'(r, 1). 


Exercice 4.12 Montrer que si X suit une loi de Pareto dont le paramètre de 
seuil a est égal à 1, alors In X suit une loi exponentielle. 


Exercice 4.13 Le temps moyen de service à un distributeur de billets est de 30 
secondes. Vous arrivez et trouvez cinq personnes en attente (la première venant 
juste d'accéder au guichet). Quelle est la probabilité que vous attendiez moins 
de 30 secondes (on supposera être en présence d’un processus de Poisson) ? 
Aide : on utilisera le deuxième résultat de l’exercice 4.11 et on établira une 
relation de récurrence pour 1} — fe xz"e”*dx en intégrant par parties. 


Exercice 4.14 Pour un projet de construction d’un immeuble de 20 loge- 
ments, on étudie la capacité nécessaire du parking. On note X la variable 
«nombre de voitures d’un ménage». Pour tout ménage on admet que la pro- 
babilité d’avoir une voiture est 0,70 et celle d’avoir 2 voitures est de 0,30 (on 
néglige toute autre possibilité). On supposera l’indépendance du nombre de 
voitures entre les ménages. 

On pose Y = X — 1. Quelle est la loi de Y ? 

Quelle est la loi de la somme de 20 variables i.i.d. de même loi que Y ? En 
déduire la probabilité qu’un parking de 29 places soit suffisant pour les 20 
ménages. 


Exercice 4.15 Grâce à une importante étude épidémiologique on constate que 
la distribution des poids des individus dans une population adulte donnée peut 
être convenablement modélisée par une loi lognormale. Considérant que le poids 
moyen est de 70 kg et que l’écart-type des poids est de 12 kg résoudre les deux 
équations permettant de déterminer les valeurs des paramètres 4 et a? de la 
loi lognormale. 


Chapitre 5 


Lois fondamentales de 
l’échantillonnage 


5.1 Phénomènes et échantillons aléatoires 


Nous entrons maintenant véritablement dans le domaine de la statistique 
en nous penchant sur l’étude d'observations répétées issues d’un certain 
phénomène de nature aléatoire. 


Schématiquement, on peut distinguer deux classes de phénomènes aléa- 
toires. D’une part l’aléatoire peut être provoqué expérimentalement comme, 
par exemple, dans les jeux de hasard ou dans les mécanismes de tirage au 
sort «d'individus» dans des «populations!» finies pour les sondages, pour le 
contrôle de qualité, etc.(voir section 3.7). Dans ce contexte expérimental la no- 
tion d’expérience aléatoire, point de départ de la modélisation probabiliste, a 
un sens tout à fait réel. 


D'autre part, on peut aussi recourir à une modélisation aléatoire lorsqu'on 
est incapable de prévoir avec exactitude les réalisations d’un phénomène. Le 
caractère aléatoire est simplement attribué au phénomène pour refléter l’incer- 
titude de l’observateur par rapport à un ensemble de résultats possibles, par 
exemple le nombre d’appels parvenant à un standard téléphonique dans une 
unité de temps, la durée de vie d’un appareil, etc. Il n’y à pas ici d'expérience 
aléatoire à proprement parler. Toutefois il est nécessaire, pour l’approche sta- 
tistique, de pouvoir observer le phénomène de façon répétée afin de constituer 
des échantillons. 


INous mettons ces termes entre guillemets car ils sont à prendre dans un sens large et non 
uniquement par référence à des populations humaines. À proprement parler les «individus» 
sont des unités statistiques qui peuvent être les entreprises d’un secteur d’activité, les arbres 
d’une forêt, les pièces d’un lot de production, etc. La population est aussi appelée univers. 
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Définition 5.1 On appelle échantillon aléatoire de taille n {en bref n- 
échantillon) une suite de n variables aléatoires indépendantes et de même loi 
(ou v.a. 1.1i.d). Cette loi est appelée la loi mère de l'échantillon. 


Cette définition appelle quelques remarques. 


— Mathématiquement la notion d’échantillon aléatoire est identique à celle 
de v.a. i.i.d., et l’usage de ce terme ne se justifie qu’en raison du contexte 
de l’échantillonnage. Sauf mention contraire, quand on parlera d’échan- 
tillon dans cet ouvrage, il s’agira implicitement d’une suite de v.a. i.i.d. 

— [l sera commode d’associer à la loi mère un symbole de v.a., par exemple 
X, le n-échantillon étant alors désigné par X1, X2,.., X,. Ainsi on peut 
écrire que pour tout à = 1,...,n, E(X;) = E(X) qui représente la moyenne 
de la loi mère. 

— On parle souvent, en lieu et place de la loi mère, de la distribution de 
la population - voire même simplement de la population - en référence 
à un sondage. Certes ce terme est abusif car, d’une part on y confond 
les individus et les valeurs numériques observables sur ces individus et, 
d'autre part, il n'existe pas nécessairement une population réelle (quelle 
est la population des appels à un standard, des produits d’un certain type 
manufacturés par une entreprise ?). Toutefois il nous arrivera de recourir 
à ce terme comme s’il existait une sorte de population virtuelle dont les 
observations seraient issues comme par un tirage au hasard. 


— Le statut de v.a. ï.i.d. exige que le phénomène soit invariant au cours 
des observations successives et que ces observations n’exercent aucune 
influence entre elles. Il s’agit bien souvent d’une profession de foi, ces 
conditions n'étant généralement pas rigoureusement vérifiables, ni rigou- 
reusement vérifiées. 


— Pour ce qui est des notations on distinguera la notion d’échantillon 
aléatoire X1,X2,..., X, dont on peut dire qu’elle se réfère à des résultats 
potentiels avant expérience ou a priori, de celle d’échantillon réalisé 
T1, T2, En Correspondant aux valeurs observées après expérience ou a 
posteriori. 


L'objectif de ce chapitre est d'étudier certaines caractéristiques de l’échan- 
tillon aléatoire, essentiellement sa moyenne et sa variance, en relation avec 
celles de la loi mère. À priori (au sens de la remarque précédente) une telle 
caractéristique est une v.a. qui prend le nom de «statistique» dans le contexte 
de l’échantillonnage, selon la définition suivante. 


Définition 5.2 Soit X1,X2,..,X, un n-échantillon, on appelle statistique 
toute v.a. Ty = h(X1, X2,.…., Xh), fonction de X1, X2,..., Xn. 


On peut concrétiser la loi d’une statistique (donc d’une caractéristique, telle 
la moyenne de l’échantillon) en imaginant une simulation en très grand nombre 
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d'échantillons de taille n, en calculant pour chacun d’eux la valeur prise par 
la statistique et en étudiant la distribution de ces valeurs. De façon imagée on 
peut dire qu’il s’agit de la distribution d’échantillonnage de la statistique sur 
«l’univers» de tous les échantillons possibles. Notons qu’une statistique peut 
être une fonction à valeurs dans R, R? ou R?. En particulier les moments empi- 
riques ci-après sont à valeurs dans R. Les définitions qui suivent se rapportent 
toutes à un échantillon aléatoire noté X3,X2,..., Xy. 


5.2 Moyenne, variance, moments empiriques 


Définition 5.3 On appelle moyenne de l’échantillon ou moyenne empi- 
rique la statistique, notée X, définie par : 


D. 


aie 


Définition 5.4 On appelle variance empirique la statistique, notée S2, 
définie par : 


i=1 
Nous commençons maintenant à établir certaines relations entre les lois de 


ces statistiques et la loi mère. 


Proposition 5.1 Soit y et o?, respectivement la moyenne et la variance de la 
loi mère. On a : 


= = o? 
EX)=n, VD=T. 
En effet : 
de 12 12 
ED Xi)=-) EX)= =D u=u 
i=1 i=1 i=1 


Puis, en raison de l’indépendance des X,; : 


MODE DCE DIRE RES 


Proposition 5.2 La moyenne de la loi de la variance empirique est : 
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En effet : 
ie _ l'E , 2 
NX -X) =- [CXi — u) — (X — y)] 
nm n ‘ 
i=1 i=1l 
1 5 E re = ; 
=) (Xi-nu) —2(X h)= (Ru) (=) 
i=1l i=1l 
dE = > 
=D (Xp) —-2(X nu) +(X -u) 
i=1l 
1e . 
== S (X;-u) —(X -u) 
i=1 
D'où 
2 LT = 2 o? n—1l 
E(S?) = = NU V(X:) — V(X) = 0? - — = o 
nm = n nm 


Quand on abordera l’estimation ponctuelle (chapitre 6) on dira que 5? 
est un estimateur biaisé de o?. Par anticipation définissons l’estimateur S? — 


ne qui est sans biais pour o?, c’est-à-dire tel que E(S?) = o?. 


Définition 5.5 On appelle variance de l’échantillon la statistique 


EE E 
2 — > (Xi — XŸ°. 
i=1 


n — 1: 
Dorénavant on étudiera S? plutôt que $? à laquelle on pourra éventuellement 
se référer en conservant le terme de variance empirique. 


En prenant la racine carrée de S? (respectivement de $?) on définit l'écart- 
type S de l'échantillon (respectivement, l’écart-type empirique S). 


Cas particulier : loi mère gaussienne 


Si la loi mère est W{(y,0?) alors X est gaussienne, en tant que combinaison 
linéaire de gaussiennes indépendantes (voir proposition 4.4). Par conséquent : 


: 2 
Xe Nu, ). 


La loi de $? sera vue dans la section 5.3. Par ailleurs, nous admettrons la 
proposition suivante. 


Proposition 5.3 Si la loi mère est gaussienne, X et S? sont des v.a. indé- 
pendantes. 
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Note 5.1 : D'une façon générale, la loi de À (et a fortiori celle de S?), pour 
une loi mère quelconque, n’est pas facile à identifier. Des cas particuliers seront 
vus en exercice (loi mère exponentielle, loi mère de Cauchy). Si la loi mère est 
de Bernoulli B(p) ou de Poisson P(À) on peut déduire la loi de X à partir de 
celle de la somme D, X; = nX qui est, respectivement, une loi binomiale 
B(n,p) ou une loi de Poisson P(nÀ) selon les propriétés de ces lois vues au 
chapitre 4. 


Définition 5.6 On appelle moment empirique d'ordre r, noté M, la sta- 
tistique 


RE 
FR 


Définition 5.7 On appelle moment centré empirique d'ordre r, noté M}, 
la statistique 


1 a 
M! = = SX -X)". 


Proposition 5.4 Si la loi mère admet un moment 1, d'ordre r (voir définition 
2.2) alors : 


E(M,) = ir. 


Ceci découle directement du fait que, pour tout à = 1,..,n, E(X7) — 
E(X") = u, (où X est le symbole de v.a. associé à la loi mère). On verra en 
fait, plus loin, qu’un moment empirique est un «estimateur» naturel du moment 
de même ordre de la loi (appelé parfois, par contraste, moment théorique). En 
revanche, comme on l’a vu pour la variance empirique s? qui correspond au 
moment empirique centré d'ordre 2, E(M/) n’est pas nécessairement égal à y. 
le moment centré théorique de même ordre. Ceci résulte du fait que le centrage 
est effectué avec la moyenne de l'échantillon X et non pas avec la vraie moyenne 
1 de sa loi. Les moments centrés empiriques s'expriment, par développement 
des (X; — X}", en fonction des moments empiriques simples de la même façon 
que le font les moments théoriques entre eux, puisqu'il s’agit alors de développer 


(X — ui)". 


En particulier, on a la formule de décentrage de la variance empi- 
rique : 


LS - 2-15 ar (RP 
i=1 i=1 


qui fait le pendant de celle de la section 2.3 : V(X) = E(X?) — 2. 
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Note 5.2 : En considérant un n-échantillon de couples d’observations 
(X1,Y1),..., (Xn, Yn) on peut définir des moments croisés empiriques d’ordres 
p et q quelconques et leurs correspondants centrés : 


1. 1 - 
NOXPPS et {5 (x -X}(M-Ÿ). 
LL i=1 me 


Pour p = q — 1 le moment centré est la covariance empirique utilisée en 
statistique descriptive : 


Comme pour la variance on introduit le facteur + au lieu de 1 pour éliminer 
le biais vis-à-vis de la covariance théorique (voir définition 3.5). 


Par analogie avec la définition 3.6 de la corrélation linéaire on définit la 
corrélation linéaire empirique en divisant la covariance empirique par le produit 
des écarts-types empiriques des v.a. X et Ÿ, soit après simplification : 


pen 
VE - XP EM - y 


À 


formule bien connue en statistique descriptive. 


Nous abordons maintenant trois lois omniprésentes en statistique car liées 
aux distributions d’échantillonnage de moyennes et de variances dans le cas 
gaussien. 


5.3 Loi du Khi-deux 


Définition 5.8 Soit Z1,Z2,...,7,, une suite de variables aléatoires 1.1.d. de loi 
N(0;1). Alors la va. D;_, Z? suit une loi appelée loi du Khi-deux à v 
degrés de liberté, notée x?(v). 


Proposition 5.5 La densité de la loi du Khi-deux à v degrés de liberté est : 


1 v æ 
f(x) = == 2x2 le"? pour x > 0 (0 sinon). 
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Démonstration : calculons la fonction génératrice de 7? où Z + W(0;1). On 
a4 


Yyo(t) = E(et7°) = ÉÉ et 6-5 de 


1 . er 302%) q 
a 2 
V2T 
L 1 + 


1,2 
= _— — — e_2" du en posant u = V1 — 2tz 
V1—2t Red 
V1 — 2t 
qui est définie pour t < 2. 
Pour la somme des Z? indépendantes on a donc (voir proposition 3.12) : 


1 
y 2 L = ( ———— 
22, z2(t) Gns 


NI 


qui n’est autre que la fonction génératrice d’une loi l'(% ,3) vue en section 


4.2.8, dont la densité est bien celle de la proposition ci-dessus. On voit donc, 
au passage, qu’une loi du Khi-deux est un cas particulier de loi gamma. 


Proposition 5.6 La moyenne de la loi x?(v) est égale au nombre de degrés 
de liberté v, sa variance est 2v. 


Repartons de la définition de la loi x?(). Comme Z; > W(0;1)ona: 


E(Z})=V(Z)=1 d'où E(D Z?)=v 
i=1 


V(Z?) = E(Zÿ) — (E(Z?))* = pa — 1. 


Or d’après un résultat de la section 4.2.4, u4 = 3 d’où V(Z?) = 2et V(3.7_, Z?) 
= 2y. 


Proposition 5.7 Si T1 x?(11), T2 x?(12), T1 et T2 indépendantes, alors 
T + To TV? x? + Va). 


Cette proposition est évidente de par la définition de la loi du Khi-deux. 
Nous revenons maintenant sur la loi de S? dans le cas d’un échantillon de loi 
mère gaussienne. 


Théorème 5.1 Soit un n-échantillon X1, X2,.…., X, de loi Nu, a?) on a : 


vps 2 X?(n — 1). 
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Démonstration : en reprenant les développements qui suivent l’énoncé de la 
proposition 5.2, on établit que : 


Die up =Y(X- XP +n(X - y}, 


n TE D 2 
_— ne. AR 
i=1 © | o/vn | 
(n—1)5? X-y 


Les deux termes de droite sont, respectivement, =——— et le carré de + TR qui 


est une gaussienne centrée-réduite. Ces termes aléatoires étant indépendants 
(comme fonctions de $? et de X, voir proposition 5.3) et les v.a. ik étant 
indépendantes de loi W(0:;1) on à, en termes de fonctions génératrices : 


n/2 1/2 
1 1 | 1 
(5) = Vans? (4). (5) (si t < 3) 


Ÿ (182 () 


Finalement : 


Il 

RN 

ns 
| 

ND 

Re 
Not 
é 


ce qui prouve le théorème. 0 


Sachant que l'espérance d’une loi x2(n—1) est n —1 et sa variance 2(n —1), 
on voit que : 
20“ 


n—1 


E(S?)=0? et V(S?) = 


En fait la loi du Khi-deux à un usage beaucoup plus vaste en statistique no- 
tamment dans la théorie des tests comme nous le verrons au chapitre 9. Toutes 
ses applications reposent sur des sommes de carrés de termes gaussiens ou ap- 
proximativement gaussiens. Notons, finalement, que la fonction de répartition 
de la loi (ou plutôt de la famille de lois) du Khi-deux ne s’explicite pas et 
que l’on doit recourir à des tables ou à une fonction ad hoc dans les logiciels 
statistiques pour le calcul de probabilités. 


5.4 Loi de Student 


Définition 5.9 Soit Z et Q deux v.a. indépendantes telles que Z + N(0;1) 
et Q = x?(v). Alors la v.a. 

Z 

/Q 


suit une loi appelée loi de Student à v degrés de liberté, notée t(v). 


T4= 
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Proposition 5.8 La densité de la loi de Student à v degrés de liberté est : 


Ce résultat, que nous ne démontrons pas, est dû à W.$S. Gosset en 1908, 
qui prit le pseudonyme de Student. Ni la fonction de répartition, ni la fonction 
génératrice ne s’explicitent. Il existe donc des tables de la fonction de répartition 
ou une fonction ad hoc dans les logiciels statistiques. On admettra encore la 
proposition suivante. 


Proposition 5.9 Soit T > t(v) alors E(T) = 0 siv > 2 et V(T) = = si 
v > 3. 


Le fait que la moyenne est nulle est évident puisque la densité est une 
fonction paire. On notera que la variance vaut 3 dès qu’elle est définie (v = 3) 
et tend vers 1 quand v — +. Pour être plus précis, l’allure de la loi de Student 
est similaire à celle d’une loi de Gauss centrée-réduite avec un étalement un 
peu plus fort, cette différence s’estompant rapidement lorsque v s’accroît et 
devenant négligeable pour v > 200. Ceci s'explique, en fait, par sa définition 
même mettant en jeu une v.a. W(0;1) au numérateur et une v.a. qui converge 
en probabilité (voir cette notion en section 5.8.1) vers 1, au dénominateur. 


Pour v = 1 la loi est la loi de Cauchy. Selon la définition 5.9, c’est la loi du 
rapport de deux gaussiennes centrées et réduites indépendantes (cette définition 
impose en fait de prendre la valeur absolue de la variable du dénominateur, 
mais cette restriction peut être levée). Sa moyenne n’existe pas en raison de ses 
“queues de distribution” pesantes (voir exemple 2.1), ce qui lui confère certaines 
particularités, par exemple que la loi des grands nombres (voir section 5.8.2) 
ne s'applique pas (voir exercices). 


Théorème 5.2 {Application fondamentale) Soit X1, X2,.…., Xn un n-échantil- 

lon de loi mère N(u1,0?). Alors : 
X-y 
S/Vn 


La démonstration est immédiate en prenant, avec les notations utilisées 
pour la définition 5.9, 


re t(n—1). 


Dore = 
EL ———— e ———————— 
o/vn © 
Ce résultat, qui a motivé en réalité les travaux de Gosset, met en évidence la 


modification apportée à la loi W(0 ; 1) de la v.a. Z ci-dessus, lorsqu'on substitue 
à l’écart-type théorique © de la loi mère, l’écart-type de l’échantillon $S. On 
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comprend au passage, qu'introduisant un terme aléatoire supplémentaire, on 
provoque un étalement plus grand. En fait les applications de la loi de Student 
se rencontrent souvent en statistique dès lors qu’on est appelé à remplacer o, 
en général inconnu, par son «estimateur» naturel S. 


5.5 Loi de Fisher-Snedecor 


Définition 5.10 Soit U et V deux v.a. indépendantes telles que U => x?(1) 
et V = x?(1). Alors la v.a. 
pe U/r 
V/v9 


suit une loi de Fisher-Snedecor à r, degrés de liberté au numérateur 
et v2 degrés de liberté au dénominateur, notée F(r1,12). En bref on 
l’appellera loi de Fisher. 


Proposition 5.10 La densité de la loi F(v1,12) est : 
#4 v1—2 


PÉ) (=) É x 7 
nt) = 7 —— six > 0 (0 sinon). 
nl 1; A ) T(2)I( 2) Vo G+ a ) 1+ 2 ( ) 


. . / +. 5 
Si v2 > 8 sa moyenne existe et est égale à RS 


2v2(v1+v2—2) 
V1 (v2—2)2(v2—4) * 


Si vo > 5 sa variance existe 


et est égale à 


Nous admettrons ces résultats sans démonstration, notant avec curiosité 
que la moyenne, quand elle existe, ne dépend que des degrés de liberté du 
dénominateur. La fonction de répartition (tout comme la fonction génératrice) 
n'étant pas explicite il existe des tables ou des fonctions ad hoc dans les logiciels. 
La proposition suivante permet une économie de tables. 

1 


Proposition 5.11 Soit H = F(v1,12), alors 7 > F(r2,1). 


Cette proposition est évidente de par la définition même de la loi de Fisher. 


Montrons qu’il suffit, grâce à cette propriété, de disposer des quantiles 
d'ordre supérieur à 0,50. Soit à calculer, par exemple, pour H © F(r,122), 
le quantile d'ordre 0,05. On a : 


P(H < ho,05) = 0,05 


1 1 
PES = 0,05 
(& ——) 


1 1 
PI —< = 0,95. 
(% — 
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Il est donc égal à l’inverse du quantile 0,95 lu sur la loi F(12,1). Plus généra- 
lement le quantile d’ordre à de la loi F{11, 2) est l'inverse du quantile d’ordre 
1— a de la loi F(12, 7). 


Les applications de la loi de Fisher sont nombreuses en statistique dès lors 
que l’on veut étudier le rapport de deux sommes de carrés de termes gaussiens 
indépendants. L'application la plus directe concerne la loi du rapport des va- 
riances 5?/S2 de deux échantillons indépendants de tailles respectives n1 et n>, 
issus de deux lois mères gaussiennes ayant une même variance 0?. En effet : 


(n1 — 1)? 


- 2 
- nm X{m 1), Ge = 15% 


2  X°(n2 Loi be 


(x 0} 


d’où immédiatement : 


On remarquera encore que si T = t(v) alors T? x F(1,v). 


5.6 Statistiques d’ordre 


Cette notion est très utile dans une série de problèmes, notamment ceux 
de minima et de maxima (voir les exercices) que nous abordons tout d’abord. 
Comme précédemment nous considérons un échantillon aléatoire X1, X2,..., Xh 
dont la loi mère a pour fonction de répartition F. 


Pour une série de nombres réels (21,%2,...,æ,) notons max{x1,%9,...,Æn} 
la fonction de R” dans R qui lui associe le nombre maximal de cette série. On 
peut donc définir une v.a., notée X{,), fonction de (X1, X2,..., Xn) par : 


X(n) — max{X1, Xo, sa Xe 


La fonction de répartition de cette statistique se déduit aisément de F. En 
effet l'événement (X4,, < x) est équivalent à (X1 < x, X2 < x,.…., Xn < &). 
Par conséquent : 


Fxe,(&) = P(X £æ, X2 <T,.…., Xn <f) 
= P(X1 < x)P(X2 < x)..P(X, < x) (indépendance) 
= [F(x)]" (même loi). 


De façon similaire on note X(,, = min{X1, X2,.…., NA} la fonction minimum 
et, en notant que l’événement (X{,, > x) est équivalent au fait que toutes les 
X; sont supérieures à x, on a : 


P(Xu) > x) = P(X1 > &)P(Xo > æ).….P(Xn > ©) 
=[1-F(z)], 
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d’où : 


Fx(@)=1-[1-F(x)". 


Définition 5.11 Soit h4 la fonction de R" dans R qui à (x1,%92, .…., Œn) fait cor- 
respondre la k-ième valeur parmi x1,x2,...,x, lorsqu'on les range dans l’ordre 
croissant. 

On appelle alors statistique d’ordre k, la v.a. notée X(4), définie par : 


Xp = R(Xis Ka, Xn). 


Ceci généralise les notions de minimum (k = 1) et de maximum (k = n). 


Proposition 5.12 La fonction de répartition de X(4, est : 


Fo X (5 )Fe hr. 
j=k 


Pour montrer cela il suffit de noter que l'événement {X(4) < x} est équivalent 
au fait qu’au moins k v.a. parmi X1,..,X, soient inférieures à k. Soit X la 
v.a. symbolisant la loi mère. Considérons l’expérience de Bernoulli avec pour 
«succès» l'événement (X < x) dont la probabilité est F(x). Le nombre de 
va. parmi X1,..,X, prenant une valeur inférieure ou égale à x est donc une 
v.a. de loi binomiale B(n, F(x)). Pour obtenir la probabilité que ce nombre soit 


N 


au moins égal à £ on est amené à sommer les termes de cette binomiale de k à n. 


Note 5.3 Considérons X(;, et X(;, avec à < j. La va. U = X(;, — X(;, ne 
peut prendre que des valeurs positives et donc P(U > 0) = 1. De façon conven- 
tionnelle on écrira P(X(;, > X(;,) = 1 et même, de façon quelque peu rapide, 
X (5, Z X(5,. Moyennant cette convention, il est possible, comme dans la plu- 
part des ouvrages, de définir les statistiques d'ordre X{1,, X(2,,..., X{,) par une 
permutation de (X1, X2,.…, Xh) telle que X(1, < X(2) < .… < X(n). 


5.7 Fonction de répartition empirique 


Nous abordons ici une variable aléatoire fonctionnelle, c’est-à-dire dont 
les réalisations sont en fait des fonctions. Nous nous contenterons de l’étudier 
en un point x fixé pour rester dans le cadre des variables aléatoires prenant 
leurs valeurs dans R. Au chapitre 7 traitant des estimateurs fonctionnels on 
verra l’intérêt de la fonction de répartition empirique en tant qu’estimateur de 
F au même titre que X est un estimateur de y, par exemple. 
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Définition 5.12 Pour toutx € R, on appelle valeur de la fonction de répar- 
tition empirique en x, la statistique, notée F,(x), définie par : 


1 n 
i=1 


Où I(_,x] 65t la fonction indicatrice de l'intervalle (—00, x], à savoir 
I(_oomj(u) = 1 si u € (—0,x] et 0 sinon. 


En d’autres termes F,(x) est la v.a «proportion» des n observations 
X1,X2,..., X, prenant une valeur inférieure ou égale à x. Chaque X; ayant 
une probabilité F(x) d’être inférieure ou égale à x, nF,(x) suit une loi bino- 
miale B(n, F(x)). En conséquence F,(x) est une v.a discrète prenant les valeurs 
£, où k = 0,1,...,n, avec probabilités : 


P(F, (x) = LE = P(nE, (x) = k) = ( : ) LF(x) 1 Fm). 


n 


ote 5. issue de l’expérience d’échantillonnage, soit æ1,%92,...,%, la réa- 
Note 5.4 Al de l’exp d’échantill , SOit T1,%2,..., En L 
isation du n-échantillon X:,X2,..,X,. La fonction de répartition empirique 
lisat d hantillon X,,X2,..,X,. La fonct de répartit piriq 
se réalise comme une fonction réelle définie sur tout R, croissant de 0 à 1 par 
paliers avec un saut de «hauteur» 1 à chaque fois qu’une valeur observée x; 


est atteinte. 


On peut également la voir comme la fonction de répartition d’une loi discrète qui 
donnerait la probabilité l à chacune des valeurs æ1,%2,...,xæ,. Cette vision permet 
de faire le lien entre moment théorique et moment empirique. Le moment théorique 
peut s’écrire Ur = Je x" dF(x) alors que le moment empirique s'écrit en remplaçant 
F par F} dans l'intégrale de Riemann-Stieltjes (introduite en note 2.1) : M, — 
Jar” dFa(a) = 15 at. 


5.8 Convergence, approximations gaussiennes, 
grands échantillons 


5.8.1 Les modes de convergence aléatoires 


On considère ici une suite infinie de v.a. {X1, X2,.…., Xh,…} notée en bref 
{XA}. On peut définir plusieurs modes de convergence pour une telle suite. On 
notera F%>, la fonction de répartition de X,. 


Définition 5.13 On dit que {X,} converge en loi vers la v.a. X si l’on a, 
en tout x où sa fonction de répartition Fx est continue, 


lim Fx, (æ) = Fx(a), 


N— 00 


et l’on note X, ES, 
Nn— OO 


80 Statistique — La théorie et ses applications 


On dira aussi que la loi de X est la la loi limite ou asymptotique de la suite 
{X,}. En pratique la loi limite sera utile pour donner une approximation 
pour le calcul de la probabilité d’un événement sur X, quand n sera 
assez grand : 

P(X, € À) = P(X € À). 


Pour la convergence en loi comme pour les autres modes de convergence un 
cas particulier important est celui où X est une v.a. certaine, c’est-à-dire que 
la suite converge vers une constante c. Pour la convergence en loi cela implique 
que Fx, (æ) converge vers 0 si x < cet vers 1six > c. 


On admettra la proposition suivante, où l’on suppose que les fonctions 
génératrices existent dans un voisinage de 0. 


Proposition 5.13 La suite de v.a. {X,} converge en loi vers X si et seulement 
si, pour tout t dans un voisinage de 0, lim, x, (t) = Yx(t), où Vx, est 
la fonction génératrice de X, et Yx celle de X. 


Cette proposition permet donc d'établir la convergence en loi à partir de la 
convergence de la fonction génératrice des moments. 


Définition 5.14 On dit que {X,} converge en probabilité (ou converge 
faiblement) vers la v.a. X si, quel que soit € > 0 donné, 


lim P(IXh-X|<e)=1, 


p 
et l’on note Xy —— X. 
N— OO 
Pour ce mode de convergence comme pour les suivants la convergence vers 
une constante c s’explicite naturellement en remplaçant X par c. 


Définition 5.15 On dit que {X,} converge presque sûrement (ou converge 
avec probabilité 1, ou converge fortement) vers la v.a. X si, quel que soit € > 0 
donné, 
lim P(sup{|Xn — X|}<e)=1, 

m>n 


n— 0O 


et l’on note Xy = X. 
n— CO 
Cette définition est complexe mais on peut voir qu’elle équivaut à dire que la 
suite {M,}, où M, = sup {|X,h — X|}, converge vers 0 en probabilité. Comme 
m>n 


pour tout n, sup{|X» re } > |Xh—X|, il est clair que la convergence presque 
m>n 


sûre entraîne la convergence en probabilité (d’où les qualificatifs de convergence 
forte et convergence faible). 


On admettra les propositions ci-après, qui pourront nous être utiles par la 
suite. 


Chapitre 5. Lois fondamentales de l’échantillonnage 81 


Proposition 5.14 Soit {X,} telle que Xn 2%, X et g une fonction continue 
alors : 


Proposition 5.15 Soit {X,} telle que X» PRES {Y,} telle que Y, EU CA 
Si f est continue dans R? alors : 


FXn Ya) + FX, Y). 


Ces deux propositions sont également vraies pour la convergence en proba- 
bilité. Elles s'étendent également à des fonctions de k variables aléatoires où 
k > 2. 


Définition 5.16 On dit que {X,} converge en moyenne quadratique vers 
la v.a. X si les v.a. X,X1, X2,.. ont un moment d'ordre 2 et si 


lim E[(X, — X}°] =0, 


n— 00 


et l’on note X, AS à 


La convergence m.q. est particulièrement facile à manipuler car elle re- 
pose sur la convergence usuelle d’une suite de nombres {E[(X, — X)?]}. Nous 
y recourrons abondamment, d’autant plus qu’elle implique la convergence en 
probabilité. 


On admettra la hiérarchie d’implications suivantes (voir certaines démons- 
trations proposées en exercices) entre les différents modes de convergence : 


p=£ 
Mm.q. > D 
p.s. = p (vu ci-dessus). 


En outre p = £ dans le cas de la convergence vers une constante. Notons 
que, dans le cas général, il n’y a pas, entre convergence m.q. et convergence 
p.s., de domination de l’une sur l’autre. 


5.8.2 Lois des grands nombres 


Théorème 5.3 Soit {X,} une suite de v.a. indépendantes de même loi admet- 
tant une moyenne y et une variance o?. Alors la suite des moyennes empiriques 
{XA} converge presque sûrement vers ji, 1e. : 


RS 


n— 00 
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Nous énonçons ici la loi dite «forte» des grands nombres. Il existe différentes 
versions de cette loi requérant des conditions plus ou moins restrictives que 
celles utilisées ici, dont la loi «faible» concernant la convergence en probabilité. 
D'un point de vue concret la loi des grands nombres garantit que la moyenne 
empirique se rapproche de plus en plus de la moyenne de la loi dont est issu 
l'échantillon quand on augmente la taille de cet échantillon. Aussi, comme on 
le verra plus loin, la moyenne empirique X, peut-elle prétendre à «estimer» y. 


Historiquement la loi des grands nombres à été introduite par Jakob 
Bernoulli (publication posthume Ars conjectandi en 1713) pour définir la pro- 
babilité d’un événement comme étant la limite de sa fréquence relative, au 
cours d’une série de répétitions d’une expérience aléatoire à l'infini. Il s’agit 
là du cas particulier où les v.a. X1, X2,..., X,,… sont les variables indicatrices 
de l’occurrence de l’événement (succès) au cours d’un processus de Bernoulli 
(voir section 4.1.3). Soit $, = 3, X; le nombre total de succès au cours des 
n premières répétitions, la fréquence relative des occurrences est la moyenne 
empirique $,/n et donc : 


où p est la probabilité de l’événement. La théorie axiomatique moderne des 
probabilités permet d'établir cette propriété originelle intuitive en précisant des 
conditions pour qu’elle s'applique, à savoir, dans la version usuelle présentée 
ici : indépendance des répétitions successives et constance de la probabilité de 
succès au cours de ces répétitions. 


Nous nous bornons à montrer la convergence de X, vers y! en moyenne 
quadratique qui, rappelons-le, garantit la convergence en probabilité. D’après 
= = — 2 
la proposition 5.1 E(X,) = y pour tout n, d'où E[(X, — u)°] = V(X,) = % 
qui tend vers 0 quand n — co, ce qui établit que X, ue LL. 
n— OO 


La loi des grands nombres n’a pas d’intérêt pratique pour le calcul sta- 
tistique, contrairement au théorème central limite ci-après qui vient préciser 
la façon dont X, converge vers y. Ce théorème est à la base de nombreuses 
propriétés essentielles des échantillons en statistique. 


5.8.3 Le théorème central limite 


Théorème 5.4 Soit {X,} une suite de v.a. indépendantes de même loi ad- 
Xn—p 
on 


loi vers la v.a. de loi N'(0; 1), ce que nous écrivons conventionnellement : 


mettant une moyenne u et une variance o?. Alors la suite converge en 


Xn — fi £ . 
PE EN: 
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Démonstration : nous supposerons que la loi mère admet une fonction généra- 
trice des moments Ÿ x. Une démonstration plus générale considèrerait de même 
la fonction caractéristique brièvement mentionnée dans la note 2.4 à la fin de 
la section 2.5, laquelle existe toujours. Dans cette section nous avons également 


mentionné le développement de Yx(t) en série de Taylor-Mac-Laurin : 


l) T ÿ HE , 
k=0 : 


soit, en nous limitant à l’ordre 2, 


t t 
Yx(t)=1 +uat+ ho +o(t) =1+ ut + (0° + 12) — 


où 5 


2 2 


2 


— 0 quand t — 0. Soit maintenant : 


rnb ee re =ÿr à me 
o/vn oyn 


Pour tout 1, X; 


an. . 


— y a pour moyenne 0 et pour variance o?, d’où : 


D’après la proposition (3.12), 


Se 


t2 2 2 2 


RO = + +0)" = (+ 


et, sachant que lim,_,,(1+ 4) =e ,on a: 


D 


lim Yon 7,(t) =eT, 


n— 00 


qui est bien la fonction génératrice de la loi W(0 ;1). 


S'il est clair que, pour tout n, la v.a. 


+ o(t?) 


X—p Rs sx . 
57m St centrée réduite (moyenne 


nulle, variance égale à 1) le théorème central limite indique en plus que sa loi 
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tend à être gaussienne quand n s’accroît et ceci, quelle que soit la loi mère 
des Xi. 


Application fondamentale 


Soit X, la moyenne empirique d’un n-échantillon aléatoire de loi mère quel- 
conque, de moyenne y et de variance o?. Alors si n est assez grand X, suit 
2 
approximativement une loi Wu, =) ce que l’on note : 


Dans tous les cas (ou presque, voir ci-après pour la loi mère de Bernoulli) n > 30 
suffit pour obtenir des approximations de probabilités à 10? près. Pour une 
loi continue à un seul mode sans queues de distribution trop allongées n = 5 
pourra même suffire. Si la loi mère est gaussienne nous avons vu en section 5.2 
que X, est exactement gaussienne pour tout n. 


Note 5.5 Comme pour la loi des grands nombres il existe différentes versions 
du théorème central limite partant de conditions plus ou moins restrictives. 
En particulier il n’est pas nécessaire que les v.a. soient de même loi ni même 
qu’elles soient indépendantes dans la mesure où leur degré de dépendance reste 
faible. Ceci explique que certains phénomènes naturels répondent bien à un 
modèle gaussien du fait que la variable étudiée résulte de l’addition d'effets 
aléatoires multiples. 

Ainsi on peut établir un comportement asymptotique gaussien pour d’autres 
types de statistiques dans la mesure où elles sont des moyennes de v.a. qui, sans 
être nécessairement indépendantes pour n fini, tendent à être i.i.d. quand n — 
œ. En particulier ceci est vrai pour la variance de l’échantillon $? pour laquelle 
les éléments X; — X, (et donc leurs carrés) tendent à devenir indépendants du 
fait que X, converge vers y. Il est toutefois nécessaire que la variance de S2 
existe et il suffit pour cela (voir en fin de section 2.3) que u4 existe pour la loi 
mère (pour le calcul de la variance de la distribution d’échantillonnage de S2 
voir les exercices). 


Cas particulier : processus de Bernoulli 


Soit S, le nombre total de succès au cours de n répétitions. Comme E(S,) = np 
et V(S,) = np(1 — p) on a pour la fréquence relative S,/n une moyenne p et 
une variance pU-p), D'où, pour n suffisamment grand, 


Ph on te p(1 — p) 


n approx n 


) 


ouencore Sn > Ni(np,np(l-—p)). 


approx 
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Cette deuxième forme constitue l’approximation de la loi binomiale B{(n, p) 
par la loi de Gauss W(np,np(1—p)). C’est l'approche historique qui a permis 
à de Moivre pour p = à puis Laplace pour p quelconque, de mettre initialement 
en évidence la loi de Gauss (voir exercice 4.3). 


En pratique on admet généralement que l’approximation est satisfaisante 
dès lors que np > 5 et n(1 — p) > 5. Ces deux conditions garantissent que la 
moyenne de la loi binomiale ne soit ni trop proche de 0, ni trop proche de n, 
car dans le cas contraire la loi serait assez nettement asymétrique. Du fait que 
l’on passe d’une loi discrète à une loi continue on introduit une correction de 
continuité de la façon suivante. 


Soit X = B(n,p) alors : 
ï RES 
P(X=Rk)= PK; <U<k+;) où U  N{(np,np(1 — p)). 


Exemple 5.1 Soit X => B(20;0,3). Nous pouvons recourir à une approxima- 
tion gaussienne car np = 6 > 5 et n(1 —p) = 14 > 5. Considérons P(X = 8) et 
P(X < 8). 


P(X = 8) = P(7,5 < U < 8,5) où U + W(6:4,2) 
75236 8,5 — 6 
Z E) 
42 7 a 


= P(0,73 < Z < 1,22) = 0,8888 — 0,7673 = 0,1215. 


= P( ) où Ze W(0;1) 


La valeur exacte (lue dans une table binomiale) est 0,1144 . 


P(X <8) = P(U <8,5) 
= P(Z <1,22) = 0,8888. 


La valeur exacte est 0,8866. [| 


Remarque : toutes les lois qui peuvent être définies comme résultant d’une 
somme de variables aléatoires i.i.d. tendent à être gaussiennes quand le nombre 
de termes augmente. C’est évidemment le cas de la binomiale B(n ,p) quand 
n — oo, comme nous venons de le voir (et par voie de conséquence pour la loi 
hypergéométrique quand N — © et M/N — p, voir section 4.1.5), mais aussi 
de la loi binomiale négative BW(r,p) quand r — c, de la loi l'(r , À) quand 
r — 00, de la loi y2(7) quand v — co. 


De façon indirecte c’est également vrai pour la loi de Poisson qui peut 
être approchée par une somme de v.a. de Bernoulli en découpant l’unité de 
temps en petits intervalles (voir section 4.1.7). En pratique on peut approcher 
la loi P(À) par la loi W(À , À) dès que À > 20, les calculs de probabilités étant 
corrects à 102 près en utilisant la correction de continuité. 
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Exemple 5.2 Soit X -> P(20). Calculons P(X < 14). 


P(X < 14) = P(U < 14,5) où U > N(20 ; 20) 
14,5 — 20 


œ P(Z < où Z x N(0;1 
Ge (1) 
œ P(Z < —1,23) = 0,1093. 


La valeur exacte (lue dans une table de Poisson) est 0,1049. = 


Nous proposons dans la section des exercices quelques «exercices appliqués» 
permettant de voir des situations pratiques illustrant l’intérêt des résultats 
précédents. 


5.9 Exercices 


Exercice 5.1 Soit X1,X2,...,X, un échantillon aléatoire de loi mère exponen- 
tielle E(À), montrer que X est de loi l'(n,nÀ). 


Exercice 5.2 Soit X1,X2,..., X, un échantillon aléatoire de loi mère l'(r , À). 
Quelle est la loi de X ? 


Exercice 5.3 * Soit X1,X2,..., X, un échantillon aléatoire de loi mère de Cauchy 


dont la densité est : . 


CEE: 


Montrer, via la fonction caractéristique des moments, que X, suit la même loi (elle 


ze R. 


ne converge donc pas vers une constante quand n — co). 


Exercice 5.4 Montrer que la variance de S? est égale à (y, — So). Que 
vaut-elle dans le cas particulier de la loi de Gauss (voir formule pour y, en 


section 4.2.4) ? 


Exercice 5.5 * (Sondage aléatoire simple sans remise) Soit la suite de v.a. 
X1,X2,...,X, issue du tirage de n individus sans remise dans une population 
de taille N. Soit a1,a2,...,an les valeurs dans la population de la variable 
étudiée. Soient y = + pe a; leur moyenne et o? = + DC — u}? leur 
variance. Pour des raisons évidentes de symétrie, P(X; = a;) reste identique 
quels que soient à et j. 

En déduire la loi marginale de X;. Par le même type d’argument déterminer 
la loi d’un couple (X;, X4) quels que soient à et k (i Æ k). 

Déterminer alors E(X;), V(X;) et E(X) où X est la moyenne de l'échantillon 
sans remise. 

Montrer que cou(X;, Xx) = ne (aide : partir de la formule de décentrage 


et utiliser la relation générale (51, aj)* = »j; af +); ja). 
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Calculer V(517_, Xi) (aide : partir de la formule générale donnée à la fin 
de la section 3.8). En déduire que la moyenne d’un échantillon issu d’un tirage 
sans remise à pour variance : 

oN-n 
nN-1 


(on remarquera que l’on trouve le même facteur correctif de sans remise que 
pour la loi hypergéométrique en section 4.1.5) 


Exercice 5.6 Montrer que la covariance de X et de S? est égale à us/n 
(aide : on peut supposer que la loi mère est de moyenne nulle sans nuire à 
la généralité). Ce résultat montre que ces deux statistiques sont asymptotique- 
ment «non corrélées». 


Exercice 5.7 Déterminer directement la densité d’une loi x?(1) par le chan- 
gement de variable de Z  W(0;1) à Z2. 


Exercice 5.8 Établir, par la fonction génératrice, la moyenne et la variance 
de la loi x?(v). 


Exercice 5.9 * Soit X une v.a. continue de densité fx, de moyenne y et de 
variance o?. Soit g une fonction positive. 


1. Soit À = {xig(x) > k > 0}. Montrer que 


fl atortoar 2 # f rxtoar: 


— CO 


et en déduire que E(g(X)) > kP(g(X) > k). 


2. En prenant g(x) = (x — a)? montrer l'inégalité de Tchebichev : 


o? 


rx HS DST. 
€ 
3. Soit une suite de va. {Y,}. En prenant X = [Y, — Y| et g(x) = x? 
montrer que Yy —T+ Y implique Y, 2 Y. 


Exercice 5.10 Démontrer la loi faible des grands nombres quand la variance 
existe. 
Aide : utiliser l'inégalité de Tchebichev ci-dessus. 


Exercice 5.11 Pour un échantillon de taille n quelle est la probabilité que le 
maximum dépasse la médiane de la loi mère ? Quelle est la probabilité que le 
maximum dépasse le troisième quartile (i.e. le quantile d’ordre 0,75) de la loi 
mère ? 
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Exercice 5.12 Soit un échantillon de taille n issu d’une loi [0 ; 1]. Déterminer 
la fonction de répartition et la densité de la loi du minimum de l’échantillon. 
En déduire l’espérance mathématique de ce minimum. 


Exercice 5.13 Pour la marche aléatoire présentée dans la section d’exercices 
3.10 donner une valeur approchée, pour n suffisamment grand, de la probabilité 
d’être éloigné de plus de x mètres de la position initiale après n étapes. 


Exercices appliqués 


Exercice 5.14 Le niveau de bruit d’un type de machine à laver à un certain 
régime est une v.a. de moyenne 44 dB et d’écart-type 5 dB. En admettant la 
validité de l’approximation gaussienne, donner la probabilité de trouver une 
moyenne supérieure à 48 dB pour un échantillon aléatoire de 10 machines. 


Exercice 5.15 Un constructeur automobile indique une consommation de 6,3 
1/100km pour un type de modèle dans des conditions expérimentales précises. 
Pour 30 automobiles (supposées prises au hasard) testées dans ces mêmes condi- 
tions on relève une consommation moyenne de 6,42 1/100km et un écart-type 
de 0,22 1/100km. 

Calculer la valeur prise dans cet échantillon par la statistique de Student 
du théorème 5.2. 

À quel quantile correspond-elle sur la loi de cette statistique ? (on supposera 
que la loi de Student s’applique avec une bonne approximation vu la taille 
d’échantillon) 

L’indication du constructeur vous paraît-elle plausible ? 


Exercice 5.16 Un téléphérique a une capacité de 100 personnes. Dans la po- 
pulation française le poids des personnes est distribué avec une moyenne de 
66,3 kg et un écart-type de 15,6 kg. En supposant que les personnes entrant 
dans la benne soient prises au hasard dans cette population quelle est, approxi- 
mativement, la probabilité que le poids total des personnes transportées excède 
7000 kg ? 


Exercice 5.17 Un sondage est effectué auprès de 1 000 personnes dans la po- 
pulation française sur la popularité d’une certaine personnalité. 

Quelle est la probabilité que le sondage indique une cote de popularité 
inférieure ou égale à 42 % si la proportion de personnes favorables à cette 
personnalité est de 0,44 au sein de la population ? (aide : on aura avantage 
à passer par la loi de $,, nombre total de succès, pour pouvoir utiliser la 
correction de continuité de l’approximation gaussienne, comme dans l’exemple 
5.1) 
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Exercice 5.18 Une machine en fonctionnement normal produit 9 % de pièces 
défectueuses. Un contrôle de qualité consiste à prélever 120 pièces au hasard. 
Quelle est la loi du nombre de pièces défectueuses ? Expérience faite, 22 pièces 
s'avèrent être défectueuses. À quel quantile correspond cette valeur sur la loi 
précédente ? (aide : on recourra à l’approximation gaussienne avec correction 
de continuité comme dans l'exemple 5.1) 

Qu'en conclure quant au fonctionnement de la machine ? 


Exercice 5.19 D'une façon générale on définit la précision d’une méthode de 
mesure par le double de l’écart-type de son erreur aléatoire. L'hypothèse d’une 
erreur aléatoire gaussienne est la règle. 

Une méthode de mesure d'alcoolémie est réputée avoir une précision de 0,1 
mg/l. Sur un même échantillon sanguin on effectue 5 mesures que l’on peut 
supposer indépendantes. Quelle est la probabilité de trouver un écart-type des 
5 mesures supérieur à 0,077 ? (aide : on passera par la variance) 


Exercice 5.20 On cherche à prévoir le nombre de nuitées dans les hôtels d’une 
station balnéaire en juillet. D’expérience on a pu constater que le nombre de 
nuits passées par un ménage peut être modélisé par une loi de Poisson de 
moyenne 4. On fait l'hypothèse d’une fréquentation de 10000 ménages, quelles 
sont la moyenne et la variance de la v.a. «nombre total de nuitées» ? 

En utilisant une approximation gaussienne donner un intervalle de proba- 
bilité 0,95 pour cette v.a. 


Exercice 5.21 Lors de la conversion du franc à l’euro les opérations sont ar- 
rondies au centime d’euro le plus proche. On suppose que les décimales de 
centime d’euro apparaissent de façon aléatoire uniformément réparties sur l’in- 
tervalle [0,1]. Quelle est approximativement la loi de l’erreur d’arrondi sur 
1000 opérations ? Donner un intervalle de probabilité 0,95 pour cette erreur. 


Exercice 5.22 Un appareil électronique contient 3 accumulateurs. Pour que 
l'appareil fonctionne il faut que les 3 accumulateurs fonctionnent. On admet 
que la durée de vie d’un accumulateur suit une loi exponentielle de moyenne 2 
ans et que les durées des trois éléments sont indépendantes. Quelle est la loi de 
la durée de fonctionnement de l’appareil ? Quelle est sa moyenne ? Quelle est 
la probabilité qu’elle soit supérieure à un an ? 


Exercice 5.23 Un industriel doit livrer 100 pièces. Sachant que le processus 
de fabrication produit une pièce défectueuse avec probabilité 0,10 il souhaite 
budgéter le nombre de pièces à produire pour être quasiment sûr de fournir 100 
bonnes unités. 

Un raisonnement simpliste consiste à déclarer que 111 pièces suffisent. Quelle 
est la probabilité de dépasser 111 pièces pour en obtenir 100 bonnes (on pourra 
utiliser une approximation gaussienne) ? 
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Combien doit-on fabriquer de pièces pour être sûr d’en avoir 100 bonnes ? 
Combien doit-on fabriquer de pièces pour en avoir 100 bonnes avec une proba- 
bilité 0,99 ? 


Chapitre 6 


Théorie de l’estimation 
paramétrique ponctuelle 


6.1 Cadre général de l’estimation 


N 


Soit À une v.a. associée à un certain phénomène aléatoire observable de 
façon répétée comme décrit en section 5.1. Notre objectif est «d’estimer» cer- 
taines caractéristiques d’intérêt de sa loi (la moyenne, la variance, la fonction 
de répartition, la fonction de densité, etc.) sur la base d’une série d’observations 
T1,T2,..., Zn. Un Cas particulier important est celui du sondage dans une po- 
pulation (voir section 3.7) dont l’objectif est d’estimer diverses caractéristiques 
descriptives de celle-ci. 


Dans ce chapitre nous considérerons toujours, même si des développements 
analogues sont possibles dans d’autres circonstances, que x1,%2,.….,æ, sont des 
réalisations d’un n-échantillon aléatoire X1, X2,..., X,. Cette hypothèse sur nos 
observations qui peut être plus ou moins réaliste est nécessaire pour étudier de 
façon simple, en termes probabilistes, la qualité des estimations que l’on cherche 
à produire. Ce chapitre ne traite également que du problème de l’estimation 
ponctuelle, c’est-à-dire celle qui consiste à attribuer, au mieux de notre sa- 
voir, une valeur unique à la caractéristique d’intérêt inconnue. Au chapitre 7 
nous aborderons l'estimation par intervalle consistant à donner un encadrement 
plausible pour la caractéristique. 


La théorie de l’estimation étudie les propriétés des estimations et des mé- 
thodes générales d'estimation comme celle dite du «maximum de vraisem- 
blance». L'objectif est de comparer les lois d’échantillonnage des «estimateurs» 
pour établir des préférences lorsque plusieurs choix se présentent. La notion 
d’estimateur est la notion centrale de ce chapitre alors même qu’elle ne se 
définit pas formellement en termes mathématiques. 
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Définition informelle d’un estimateur et d’une estimation 


Dans le cadre défini ci-dessus, soit à estimer une caractéristique c de la 
variable aléatoire X sur la base de la réalisation (41,2, ….,x,) du n-échantillon 
(X1, X2,.…., Xh). On appellera estimateur toute statistique (donc toute fonction 
de X1,X2,.., X», voir définition 5.2) dont la réalisation après expérience est 
envisagée comme estimation de c. Un estimateur se définit donc dans l’intention 
de fournir une estimation. 


Insistons sur le fait qu’un estimateur est une variable aléatoire, alors qu’une 
estimation est une valeur numérique prise par l’estimateur suite à la réa- 
lisation du n-échantillon. Si un estimateur est déterminé par une fonction 
R(X1, X2,.…., Xn), estimation correspondante est évidemment h(æ1,%2,...,%n). 
Soit, par exemple, à estimer la moyenne E(X) de la loi de X, un estimateur qui 
semble a priori naturel est la moyenne empirique X qui produit une estimation 
æ, moyenne descriptive de la série des valeurs observées. 


6.2 Cadre de l’estimation paramétrique 


En estimation paramétrique la loi de X est réputée appartenir à une famille 
de lois, telles que celles présentées au chapitre 4, qui peut être décrite par 
une forme fonctionnelle connue soit de sa fonction de répartition, soit de sa 
fonction de densité dans le cas continu, soit de sa fonction de probabilité dans 
le cas discret, forme dépendant d’un ou plusieurs paramètres inconnus réels. 
De façon générique nous noterons # ce paramètre ou vecteur de paramètres et 
F(x;0), f(x;0) ou p(x;0) les trois formes fonctionnelles précitées. Toutefois, 
par simplification et sauf mention expresse contraire, nous noterons f(x: 6) 
aussi bien la densité du cas continu que la fonction de probabilité du 
cas discret. 


L'ensemble des valeurs possibles pour 0, appelé espace paramétrique, sera 
noté @, lequel est inclus dans R où k est la dimension du paramètre 0. Le plus 
souvent la famille paramétrique à laquelle la loi de X est réputée appartenir sera 
décrite par la famille de densités de probabilité (respectivement de fonctions 
de probabilité) { f(x; 0);0 € @}. Ces fonctions sont implicitement définies pour 
tout x € R. Rappelons ici (voir section 1.4) qu’on appelle support de f(x; 0) (ou 
support de la loi) l’ensemble des valeurs de x telles que f(x; 0) > 0. En termes 
courants, on parlera de l’ensemble des réalisations (ou valeurs) possibles. 


Lorsque nous considérerons une famille de lois usuelles nous reviendrons 
aux notations du chapitre 4. Ainsi la famille des lois de Gauss est décrite par 
la famille des densités de la forme (1/(V2xo))exp{— ED }, pour tout x ER, 
où intervient un paramètre (y, a?) de dimension 2, l’espace paramétrique étant 


la partie de R? : {(u,0*)|[HEeR, 0° €R, o° > 0}. 


Dans ce cadre paramétrique le problème est celui de l’estimation du pa- 
ramètre @ grâce à laquelle on obtiendra une estimation complète de la loi 
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de X et, par voie de conséquence, de toute caractéristique de cette loi. Dis- 
tinguons bien ici la notion de paramètre d’une loi de celle de caractéristique 
(moyenne, variance, médiane, .…) de la loi : le paramètre identifie chaque loi 
(chaque membre) dans la famille considérée mais n’est pas nécessairement une 
caractéristique usuelle de cette loi. Par contre toute caractéristique usuelle 
dépend du membre de la famille et donc du paramètre 9. Aussi le moment 
d'ordre k, par exemple, sera-t-il noté wx(0), la moyenne sera notée u1(0) et la 
variance o?(0). Si notre objectif principal est d’estimer le paramètre inconnu #, 
il se pourra aussi que nous souhaitions directement estimer une fonction de 
Ô représentant une certaine caractéristique particulièrement intéressante, sans 
nécessairement passer par l’estimation de 0. En particulier, fréquemment on 
voudra estimer moyenne et variance de la loi, soit (0) et o?(0). 


Notation pour les estimateurs et estimations 


Pour un paramètre désigné par une certaine lettre on note souvent un esti- 
mateur par la même lettre surmontée d’un accent circonflexe. Pour distinguer la 
méthode d'estimation utilisée on pourra ajouter en indice supérieur une lettre 
y faisant clairement référence. Ainsi, pour le paramètre générique 0 un estima- 
teur non précisé sera noté 6, l’estimateur obtenu par la méthode des moments 
(exposée en section 6.4) sera noté 0" et l’estimateur obtenu par la méthode du 
maximum de vraisemblance (exposée en section 6.7) sera noté 0MV. Selon nos 
conventions initiales nous devrions noter ces variables aléatoires avec la lettre 
majuscule de 0. Mais dans la mesure où le contexte indique clairement s’il s’agit 
d’une variable aléatoire ou de sa réalisation, nous ne ferons pas la distinc- 
tion entre estimation et estimateur lorsqu'ils sont notés en lettres 
grecques. La lettre AN désignera, par exemple, l’estimateur ou l’estimation 
des moments pour le paramètre À de la loi E(À). 


Notons que dans le contexte de l’estimation paramétrique le paramètre 0 
est totalement inconnu. Aïnsi la v.a. X : «intervalle de temps séparant r occur- 
rences» dans un processus de Poisson suit une loi l'(r, À) dont seul le paramètre 
À est inconnu. Nous avons donc affaire à une sous-famille de la famille des lois 
Gamma. 


Remarquons également qu’il n’y à pas qu’une seule façon de paramétrer 
une famille de lois. En particulier toute fonction strictement monotone }(0) du 
paramètre 0 permet une reparamétrisation de la famille des densités (respecti- 
vement des fonctions de probabilité). Ainsi, nous avons adopté, pour décrire la 
famille des lois exponentielles £(À), la forme fonctionnelle : 


f{a)= de X,x>0,À1>0 


dans laquelle À est l’inverse de la moyenne de la loi mais correspond à l’inten- 
sité du processus de Poisson (nombre moyen d’occurrences par unité de temps). 
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Certains auteurs utilisent la forme : 


1 _x 
f(x; 0) = ge 2200>0 


où 0 — 1/À est la fonction de reparamétrisation, auquel cas @ est la moyenne 
de la loi. Nous garderons à l’esprit ce problème de changement de paramètre 
qui permettra de dégager certaines propriétés intéressantes des estimateurs. 


Pour clore cette introduction mettons en évidence le fait que, dans le cadre 
des échantillons aléatoires, la loi conjointe du n-échantillon (X1, X2,.…., Xh) 
peut être définie par la fonction de densité (respectivement la fonction de pro- 
babilité) conjointe : 

nm 
(1:22, 2n50) = (21:06) f(2: 0)... f(2n:0) = [T f(x::0) 
i=1 
où 0 est le paramètre inconnu dans @ (par commodité, nous désignons ici, 
et ferons de même éventuellement plus loin, la densité conjointe par la même 
lettre f que la densité de la loi mère). Dans le cas discret cette expression est 
la probabilité Po(X1 = 21, Xo = 92, Xn = Zn). 


Pour établir certains résultats nous serons amenés à poser des conditions sur 
cette densité (ou fonction de probabilité) conjointe. Ces conditions ne seront 
pertinentes qu'aux points (41,%2,....,æ,) de R" correspondant à des valeurs 
possibles, en d’autres termes uniquement sur le support de la loi conjointe. 
Ce support est évidemment l’ensemble produit n fois du support de f(x; 6). 
Pour la famille paramétrique dans son ensemble, il faudra prendre en compte 
l’union des supports de tous les membres lorsque 0 décrit @. Pour la famille 
des lois 4[0,8], avec 4 > 0, par exemple, cette union est RT. Donc, par la 
suite, les conditions imposées aux densités ou fonctions de probabilités seront 
implicitement restreintes à leurs supports. 


6.3 La classe exponentielle de lois 


Cette classe regroupe des familles paramétriques de lois qui, de par leur 
forme particulière, partagent beaucoup de propriétés dans la théorie de l’esti- 
mation ou la théorie des tests, du fait que leurs densités peuvent s’écrire sous 
une même expression canonique (on parle aussi de la «famille exponentielle» 
mais cela prête à confusion avec la famille exponentielle usuelle £(À)). 


Définition 6.1 Soit une famille paramétrique de lois admettant des fonctions 
de densité (cas continu) ou des fonctions de probabilité (cas discret) {f(x:0):0 € 
O CR'}. On dit qu’elle appartient à la classe exponentielle de lois si f(x; 0) 
peut s’écrire : 


f(x;0) = a(8)b(x) exp{c1(0)di(x) + c2(0)do(x) + …. + c,(0)d(x)} 
pour tout x € R. 
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Notons qu’il doit y avoir autant de termes de produits dans la partie expo- 
nentielle que de dimensions pour 4. En particulier, si 0 est de dimension 1, on 
a : 


F(x:0) = a(0)b(x) exp{c(0)d(x)}. 


De plus cette forme canonique doit être effective pour tout x € R. En par- 
ticulier si le support de f(x;0), donc l’ensemble des valeurs de + pour les- 
quelles f(x;0) > 0 , dépend lui-même du paramètre 0, un terme d’indicatrice 
Tia(o),sten(x) doit être introduit, ce qui ne peut en aucun cas permettre la 
forme définie ci-dessus. Ces types de lois auront, de ce fait, des propriétés très 
spécifiques. On donnera pour exemple la famille des lois {4[0, 8], où 4 > 0 est 
inconnu, dont les densités sont de la forme : 


1 
f(x; 0) = gli. (x) ,Vx ER. 


Notons encore que les notions de dimension k et de forme canonique ne 
concernent que les paramètres inconnus. Ainsi la sous-famille des lois B(n, p) 
où n est connu, comme c’est toujours le cas dans les applications statistiques, 
appartient à la famille exponentielle (voir exemple 6.1), ce qui ne serait pas le 
cas si n était inconnu. 


Nous verrons plus loin que les fonctions d;(x) jouent un rôle central dans la 
recherche des meilleurs estimateurs. Aussi les mettons-nous en évidence dans 
les trois exemples qui suivent, puis dans le tableau 6.1 qui servira de référence 
par la suite. 


Exemple 6.1 Loi B(n,p) avec n connu. 


flan) = (ra = pÿ=® pour 3 = 0,1,2, 1 
TX 


= (i—p}" () exp{a. In = _— 


d’où d(x) = x. Le cas de la loi de Bernoulli B(p) est identique avec n = 1. 


Exemple 6.2 Loi P (À). 


f(x; À) = x PO TE N 
1 
= De exp{x. In À} 
x! 


d’où, également, d(x) = x. = 
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Exemple 6.3 Loi Wu ,o?). 


1(x—u) 
. PA 
fu 07) = opt), rem 
1 pi? Le. 4 
Sam Phoshler deati 
d’où (x) = x? et dx) = x. = 


On peut établir aisément les résultats du tableau suivant qui contient la 
plupart des lois usuelles. 


Tableau 6.1 : Principales lois usuelles appartenant à la classe exponentielle 


loi paramètre | d1(x) d2(x) 14 
B(p) p x | PQ») 
B(n,p) | p(nconnu) | x : n[p( —p)"* 
BN(r, p) p(r connu) æ - r[p?2(1 — p)] 7! 
P(À) À x - 1/À 
E(À) À x - 1/2 
T(r, À) ÀX(r connu) æ - r/À2 
Nu, 0?) (u, a?) T° ï 
Pareto(a,0) | (a connu) | In(x) - 1/02 
Beta(a, 6) (a, B) In(x) | n(1-x) 


l'Information de Fisher, voir section 6.6.3 


En revanche les lois hypergéométriques (M inconnu), Weiïbull et Gumbel 
n’appartiennent pas à la classe exponentielle. 


6.4 Une approche intuitive de l’estimation : la 
méthode des moments 


Bien que cette méthode ne soit pas toujours satisfaisante nous l’introduisons 
dès maintenant en raison de son côté intuitif. Elle nous servira ainsi, dans la 
section suivante, à illustrer les propriétés générales des estimateurs. 


Nous commençons par le cas d’un paramètre à une dimension. Pour une 
réalisation æ1,%2,...,x, de l'échantillon la méthode consiste alors à choisir pour 
estimation de © la valeur telle que la moyenne théorique (0) (ou premier 
moment de la loi) coïncide avec la moyenne empirique 7. Pour la loi €(À), par 
exemple, l'estimation de À sera À" telle que 1/ÀV = %, soit ÀÂM = 1/x. Pour 
la loi BN(r, p) avec r connu, l'estimation de p sera 5" telle que 


CE Em 2) 
p 


. «M T 
T+T 
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Pour la loi de Poisson la solution est Z puisque le paramètre À est lui-même 
la moyenne de la loi. De même, pour la loi de Bernoulli, p est estimé par la 
moyenne qui est la fréquence relative observée. 


La méthode n’a de sens que s’il y à existence et unicité de la solution 
dans l’espace paramétrique ®, ce que nous supposerons toujours vrai. Aïnsi, 
de façon générale, nous sommes amenés à résoudre l’équation u(0) = x et, en 
raison de l’unicité, nous pourrons noter 0M = y-1(x) l’estimation de 0 pour 
une réalisation x donnée de X. Appliquée maintenant à X (donc dans l’univers 
- selon l’acceptation de ce mot donnée en fin de section 5.1 - des échantillons 
aléatoires) la fonction y! définit alors la statistique 9" = u-1(X) appelée 
estimateur des moments de 0 (rappelons que nous n’utilisons pas de lettre 
grecque majuscule pour distinguer estimateur et estimation). 


Pour un paramètre de dimension 2 l’estimation résulte de la résolution de 
deux équations, l’une reposant sur le premier moment, l’autre sur le moment 
d’ordre 2. Prenons le cas de la loi de Gauss avec (4, a?) comme paramètre, dont 
le premier moment est u lui-même et le moment d'ordre 2 est E(X?) = y? +o?. 
On résout donc (en passant directement aux v.a.) 


d'où AM = X et 62" = IS, X2 - X? = S?. La moyenne et la variance 
théoriques sont donc estimées naturellement par la moyenne et la variance 
empiriques. 


Prenons maintenant le cas moins intuitif de la loi de Gumbel de paramètre 
(a, 3), dont la moyenne est a +78, où + est la constante d’Euler, et la variance 
est 1?/32/6 (voir section 4.2.8). On résout : 


a +76 = X 
2 22 à 
C++ TE 215 x? 
6 i=1 
ou, de façon équivalente, 
a+78 =X 
x? 6? - g 
6 


ce qui donne la solution PM — GS et AM=X ES, 


98 Statistique — La théorie et ses applications 


D'une façon générale l’estimation de 0 de dimension 2 par la méthode des 
moments est la solution (supposée exister et être unique pour toute réalisation 
du n-échantillon aléatoire) du système : 


{ u(0) =x 
u2(0) — L + t? 


Cette solution appliquée à X et 1577; X? donne l’estimateur de 4 correspon- 
dant. 


Du fait de la correspondance des formules de décentrage pour les moments 
empiriques et pour les moments théoriques il est équivalent de résoudre : 


où la deuxième équation porte donc sur les moments centrés d’ordre 2. Nous 
donnons maintenant une définition formelle de l’estimateur des moments dans 
le cas général où le paramètre est de dimension k quelconque. 


Définition 6.2 Soit un échantillon aléatoire (X1, X2,.…., X,) dont la loi mère 
appartient à une famille paramétrique de paramètre inconnu 0 € 6, où 6 CR", 
et telle que pour tout 0 € © il existe un moment ux(0) à l’ordre k. Si, pour 
toute réalisation (x1,%2,.….,%n) de (X1, X2,.…., X,) le système à k équations 


la1(0) =mu 
L2(0) = m2 
ur (6) — ME 


(où m, dénote la réalisation du moment empirique d'ordre r : m, = 1 du) 
admet une solution unique, cette solution est appelée estimation des moments 
de 0. La fonction(de R' dans R) qui à toute réalisation (x1,%2,.….,%n) fait 
correspondre cette solution définit, en s'appliquant à (X1, X2,.…., Xh), une sta- 
tistique à valeurs dans R* appelée estimateur des moments de 0. 


6.5 Qualités des estimateurs 


Un des objectifs essentiels de la théorie de l’estimation, nous l’avons dit, 
est d’opérer des choix parmi les différents estimateurs auxquels on peut penser. 
Pour cela il est nécessaire de se donner des critères de qualité pertinents. De 
façon générique nous noterons 7, l’estimateur de 0 à étudier. Étant donné 
que la valeur de Ô est inconnue, nous souhaitons que le comportement de 7}, 
soit satisfaisant quel que soit 0 € ©, c’est-à-dire quelle que soit la loi mère 
effective dans la famille paramétrique donnée, et les critères de qualité seront 
à étudier comme des fonctions de #0. Les critères définis ci-après, mis à part 
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l'exhaustivité (section 6.5.4), seront appliqués uniquement à un paramètre de 
dimension 1 (@ € R) et nous commenterons en section 6.6.4 les possibilités 
d'extension à une dimension supérieure. 


6.5.1 Biais d’un estimateur 


Définition 6.3 Soit une v.a. X de loi de densité (ou fonction de probabilité) 
f(x;:0) où 0 E O CR. Soit X1,X2..., Xn un n-échantillon issu de cette loi et 
Th un estimateur de 0. On appelle biais de T} pour 0 la valeur : 


bo(Tn) = Eo(Tn) — 6. 
Si bo(Tn) = 0 quel que soit 0 E O, on dit que T, est sans biais pour 6. 


Cette définition s’étend naturellement à l'estimation d’une fonction A(@). Le 
biais caractérise donc l’écart entre la moyenne de 7, dans l’univers de tous les 
échantillons possibles et la valeur cible 4. Elle correspond à la notion d’erreur 
systématique pour un instrument de mesure. Notons que la moyenne de T7}, 
Eo(Tn), est indicée par @ pour rappeler qu’elle est liée à la valeur inconnue de 
0. Ceci sera vrai également plus loin pour la variance et l’erreur quadratique 
moyenne de 7,. Pour alléger les écritures, nous omettrons pourtant souvent 
cette indexation, notamment dans les illustrations. 


Exemple 6.4 Soit la famille des lois continues U[0, 9]. Montrons que ntt x (a) 
est sans biais pour 0. Nous avons vu en section 5.6 que, pour une loi de fonction 
de répartition F(x), la fonction de répartition du maximum de l'échantillon 
X(n) est [F(x)}*. Dans la situation particulière considérée F(x;0) = % quand 
x € [0,0] et la densité de X,,, est donc : 


1 n—1 
zn(5) = n° si x € (0,6, 


d’où : 
al n gn+1 n 


0 
E X — . d = — . 
el (M) } si on * n+1 0" RL 


Donc Eg(x (ny) = 0 quel que soit 4. Il est intéressant de noter la présence du 
facteur tt qui, en quelque sorte, prend en compte l’écart entre le maximum 


observé et la borne supérieure des valeurs possibles. [ | 


Exemple 6.5 Considérons l’estimation des moments de la loi mère qui sont 
des fonctions de 0. Remarquons que le moment empirique d’ordre r est sans 
biais pour le moment théorique d’ordre r de la loi de X. En effet, par définition, 
Eo(X") = u,(0) et donc, quel que soit 6, 
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Ceci n’est pas vrai pour les moments centrés. Ainsi pour r = 2 nous avons la 
variance empirique $? pour laquelle (voir proposition 5.2) E9(5?) = 2=162(0). 
Son biais est : 

n—1 1 

© g7(8) — o°(8) = ——a? (6). 


n nm 


Ep($?) = 


Ceci signifie, qu’en moyenne, la variance empirique sous-estime la variance de 
la loi étudiée. C’est pourquoi on lui préfère la statistique 


_ 1 Dec se 
i=1 


appelée conventionnellement «variance de l’échantillon» qui est sans biais pour 
@ (voir section 5.2). Rappelons que cette sous-estimation s'explique par le fait 
que les écarts sont mesurés par rapport à la moyenne même des valeurs et non 
par rapport à la vraie moyenne (0). = 


Il est intéressant de remarquer que ces propriétés des moments sont 
vraies pour toute loi mère (dans la mesure où les moments existent) indépen- 
damment de tout cadre paramétrique. On dit que ce sont des propriétés non 
paramétriques (en anglais : distribution free) que nous développerons au cha- 
pitre 8. 


6.5.2 Variance et erreur quadratique moyenne d’un 
estimateur 


La variance V9(T,) de l’estimateur est un critère important dans la mesure 
où elle caractérise la dispersion des valeurs de T}, dans l’univers des échantillons 
possibles. Toutefois il s’agit de la dispersion autour de E9(T,) et non pas autour 
de 0. Pour prendre en compte l’écart par rapport à 0 on introduit le critère 
d'erreur quadratique moyenne. 


Définition 6.4 On appelle erreur quadratique moyenne de T, par rapport 
à Ô, la valeur, notée egmo(Th), définie par : 


eqmo(Tn) = Ebl(Tn — 8), 


et l’on à : 
egmo(Tn) = [bo(Tn)] + Vo(Tn)- 
En effet : 
Eol(Tn — 0)?] = Eo[{Tn — Eo(Tn) + Eo(Tn) — 0}] 
= Ep[{Tn — E6(Tn)}°] + [Eo(Tn) — 0 + 2E6[Tn — Eo(Tn)]E6(Tn) — 4 
= Vo(Tn) + [be(Th)]? car Ep[Tn — Eo(Th)] = 0. 
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Comme l’indique son nom ce critère mesure la distance au carré à laquelle 
T} se situe en moyenne par rapport à 0. On peut faire l’analogie avec les 
impacts effectués par un tireur sur une cible (même si cela correspond plutôt 
à un paramètre de dimension 2). Le tireur cherche à atteindre le centre de la 
cible mais ses impacts, au cours des répétitions («univers» de ses tirs), peuvent 
être systématiquement décalés, c’est-à-dire que le centre de ceux-ci n’est pas 
le centre de la cible. En revanche ses tirs peuvent être très groupés (variance 
faible). Un autre tireur peut être bien centré (biais nul ou faible) mais avoir peu 
de régularité et donc une forte dispersion de ses tirs (variance élevée). Le choix 
du meilleur tireur dépend de l’importance relative du décalage systématique et 
de la régularité. 


Le critère d’erreur quadratique moyenne (en bref e.q.m.) n’est pas la pa- 
nacée mais il est préféré parce qu’il s'exprime en fonction des notions simples 
de biais et de variance. D’autres critères peuvent paraître tout aussi naturels, 
en particulier l'erreur absolue moyenne E,(|T, — 0|), mais celle-ci est beaucoup 
plus difficile à manipuler analytiquement. 


En adoptant le critère d’e.q.m. pour juger de la précision d’un estimateur 
le problème est de rechercher le meilleur estimateur au sens de ce critère, ce 
qui nous conduit aux définitions suivantes. 


Définition 6.5 On dit que l’estimateur T} domine l’estimateur T? si pour 
tout 0 € ©, egme(TE) <eqgmo(T?), l'inégalité étant stricte pour au moins une 
valeur de 6. 


L'idéal serait de disposer d’un estimateur qui domine tous les autres. Or 
il n’existe pas en général, d’estimateur d’e.q.m. minimale uniformément en 6. 
Pour s’en convaincre considérons comme estimateur la v.a. certaine 4 où 6 
est l’une des valeurs possibles. Pour celui-ci l’e.q.m. en 0 = 0 est nulle alors 
que pour tout autre estimateur l’e.q.m. est strictement positive (au moins par 
sa variance s’il est véritablement aléatoire ou par son biais s’il est certain). Cet 
estimateur particulier ne peut donc être dominé. Néanmoins, si un estimateur 
est dominé par un autre estimateur, il n’est pas utile de le retenir. 


Définition 6.6 On dit qu’un estimateur est admissible s'il n'existe aucun 
estimateur le dominant. 


Ainsi seule est à prendre en compte la classe des estimateurs admissibles. 
À partir de là, plusieurs orientations de choix sont possibles, l’une des plus 
répandues étant de choisir l’estimateur pour lequel le maximum que peut at- 
teindre l’e.q.m. sur @ est le plus faible. 


Définition 6.7 On dit que TŸ est minimazx si pour tout autre estimateur Th 
on à : 


sup egmo(T*) < sup egma(Th). 
CES 0e® 
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Nous ne poursuivons pas ici la recherche d’estimateurs minimax et nous 
nous contenterons d'illustrer par deux exemples les propriétés de dominance et 
d'admissibilité. 


Exemple 6.6 Soit une loi mère W(yu,o?) et un échantillon de taille n > 1. 


s —1] L : 
Montrons que, pour estimer o?, $? — re domine $?. Pour ce dernier le 
4 


biais est nul et la variance est 22 (voir section 5.3). D'où : 
2 — 1)52 4 
n n 
(n — 1)5? (n—1)? 204 2(n — 1)o{ 
14 = — 
n n? n—l n? 
2 
_—. (® _ DE) - ( bte c°) " 2(n a 
n n n 
Ce TN en 1)o+ 
T2 2 : Ho 


La différence egm(S?) — egm(S?) est donc : 


204  (2n—1)o4  (3n —1)a{ 


n—1 n? _ (n-1}n2 


qui est toujours positif. Par conséquent S? n’est pas admissible. 

En fait $? introduit un biais, mais celui-ci (au carré) est compensé par une 
variance plus faible. Notons que ceci n’est pas vrai pour toute loi mère (voir 
exercices). EH 


Exemple 6.7 Soit à estimer le paramètre p d’une loi de Bernoulli (ou, en 
situation pratique, une proportion p par sondage dans une population). Soit 
RE Sr X; le total empirique ou fréquence de succès observée. Montrons 
que si p est au voisinage de 1/2 la statistique T = (S,,+1)/(n+2) est préférable, 
au sens de l’e.q.m., à la proportion empirique naturelle S,, /n pour estimer p. 
Comme $, suit une loi B(n,p), on a E(S,) = np et V(S,) = np(1 — p). Pour 
la proportion empirique E($,,/n) = p, le biais est donc nul et l’e.q.m. est égale 


 p{i— a : 
à Lemon Pour le deuxième estimateur T, on a : 


np +1 
E(T) = ÉD et V(T) = = 


d’où son e.q.m. : 


n +2 : 


np +1 | np(1 —p) _ (1—2p)° +np(1 — p) 
(n +2)? _ (n +2)? 


egm(T) = | 
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En faisant le rapport de cette e.q.m. à celle de S,, /n on obtient : 


m+2 pr | PE | 


2 
Or pour p = à ceci vaut CPP) < 1 et le rapport ci-dessus étant une fonction 
continue de p dans ]0,1{, il reste strictement inférieur à 1 dans un certain 


voisinage de 1/2. Un calcul plus approfondi montrerait que ce voisinage dépend 


de n et est l'intervalle 
Fe n +1 Lis Le 
2 V9on+1 2 V?2n+1!: 


En conclusion, aucun des deux estimateurs ne domine l’autre. [| 


Dans ces deux exemples on constate que si l’on accepte un certain biais, des 
estimateurs apparemment naturels peuvent être moins performants au sens de 
l’e.q.m.. Toutefois de nombreux statisticiens privilégient les estimateurs sans 
biais signifiant ainsi qu’ils ne considèrent pas l’e.q.m. comme la panacée. Si 
l’on se restreint à la classe des estimateurs sans biais des résultats tangibles 
peuvent être obtenus dans la recherche de l’estimateur optimal et ceux-ci seront 
présentés en section 6.6. 


6.5.3 Convergence d’un estimateur 


Nous considérons ici la suite {7,} de v.a. à valeurs dans R lorsque la taille 
n de l'échantillon s’accroît à l'infini, toujours avec @ € R. Pour un estimateur 
digne de ce nom on s’attend à ce qu’il se rapproche de plus en plus de 4 quand 
n — oc. C’est ce qu’exprime la notion de convergence. Formellement on dira 
que l’estimateur 7, est convergent selon un certain mode «m» si : 

Th > 0 
n— CO 

où «m» est à remplacer par p, p.s ou m.q. respectivement pour la convergence 
en probabilité, presque sûre ou en moyenne quadratique. Étant donné qu'il y à 
convergence vers une constante, rappelons (voir section 5.8) que la convergence 
en loi est équivalente à la convergence en probabilité. Pour @ € RÂ la conver- 
gence en probabilité, donc la convergence en loi, et la convergence presque sûre 
s'entendent composante par composante. La convergence en moyenne quadra- 
tique se généralise avec la norme ||.|| euclidienne usuelle dans RF. 


Nous énonçons tout d’abord une propriété de convergence des moments 
empiriques de portée générale, dépassant le cadre paramétrique et que nous 
reprendrons donc dans le cadre non paramétrique du chapitre 8. 


Proposition 6.1 Si, pour la loi mère, E(|X"|) existe, alors tous les moments 
empiriques jusqu'à l’ordre r, simples ou centrés, sont des estimateurs presque 
sûrement convergents des moments correspondants de la loi. 
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Il est clair que si les conditions d’application de la loi forte des grands 
nombres selon le théorème 5.3 sont réunies pour la v.a. X” (r entier), alors le 
moment empirique M,, comme moyenne des XT,X3,.., X7, converge presque 
sûrement vers 4, moyenne de la loi de X”. Si nous nous en tenons à l’énoncé 
de ce théorème, la condition est que la variance de la loi considérée existe, donc, 
pour la loi de X”, que E(X?") existe. Dans la proposition ci-dessus nous avons 
indiqué une condition plus faible qui résulte d’une version de la loi forte des 
grands nombres due à Kolmogorov. 


Les moments d’ordres inférieurs existant a fortiori, ils convergent également. 
Quant au moment centré M} (k < r), il converge en tant que fonction continue 
de M;,Mb,..., M, et nécessairement vers He qui s’exprime par la même fonction 
vis-à-vis de w1,2,.…,ux (voir la proposition 5.15 sur la convergence d’une 
fonction de v.a.). 


En particulier si E(X?) existe ou, de façon équivalente, si la variance de 

la loi mère existe, la variance empirique S2 converge presque sûrement vers la 
variance de cette loi (et a fortiori X, converge vers sa moyenne). Au passage 
notons que ceci vaut aussi pour la variance d’échantillon S2 qui ne diffère de 
G2 
S; que par le facteur ——.. 
Proposition 6.2 Soit une famille paramétrique de paramètre 0 de dimension 
k telle que Ep(|XF|) existe pour tout 0 et qu'il existe un estimateur des moments 
pour 0. Si les k premiers moments u1(0), .…, ax (0) sont des fonctions continues 
de 0, alors cet estimateur est convergent presque sûrement. 


En effet en raison de l'hypothèse de continuité, la résolution du système 
d'équations de la définition 6.2 conduit à un estimateur des moments qui s’ex- 
prime comme une fonction continue, de R* dans R*, des moments empiriques 
Lu, Lo, …, ur. En vertu de la proposition 5.15 il converge donc vers la solution du 
système 141 (0) = (00), u2(0) = u2(80),…, 4x(0) = uxk(00) où nous distinguons 
ici do comme étant la vraie valeur de 4 pour la loi mère (ainsi M, 27 y,(00) 
pour r = 1,...,k). Du fait de l’unicité de solution en # pour ce système, propre 
à l’existence de l’estimateur des moments, cette solution ne peut être que 60. 


La convergence est une condition sine qua non pour qualifier une statistique 
d’estimateur et elle sera normalement vérifiée pour les estimateurs naturels. 
Pour la loi de Cauchy généralisée de paramètre 0 définie par la densité : 


1 
1+(x—0)7] 


x; 0) = zER, 

(8) = — 
(pour 0 = 0, c’est la loi de Student à 1 degré de liberté) on a vu dans l’exemple 
2.1 que la moyenne n'existe pas. On peut se poser la question de savoir com- 
ment se comporte alors la moyenne empirique. On montre (via la fonction 
caractéristique des moments, comme proposé dans un exercice du chapitre 5) 
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que la moyenne X suit en fait la même loi! Elle ne converge donc pas vers 0. 
En fait pour estimer 0 il faut prendre la médiane de l’échantillon, laquelle est 
convergente. 


6.5.4 Exhaustivité d’un estimateur 


S'agissant d'estimer 0, certaines statistiques peuvent être exclues du fait 
qu’elles n’utilisent pas de façon exhaustive toute l'information contenue dans 
l'échantillon X1, X2,..., Xh. À l'inverse on peut s’attendre à ce qu’un «bon» es- 
timateur soit une statistique qui ne retienne que ce qui est utile de l’échantillon. 
Les notions d’exhaustivité et d’exhaustivité minimale viennent préciser cela. 
Dans cette section @ pourra être de dimension quelconque tout comme les 
statistiques considérées. 


Définition 6.8 On dit que T, est une statistique exhaustive pour 0 € O 
C RŸ si la loi conditionnelle de (X1,X2,..., Xn) sachant T, ne dépend pas de 
0. 


Exemple 6.8 Soit la v.a. X de loi continue uniforme sur [0, 0] où 4 est inconnu. 
Ecrivons sa fonction de densité sous la forme : 
T 


f(x; 08) = F 


Lio,o,(x) 
afin d'y intégrer le fait que le support de cette densité est [0, 0], lequel dépend 
donc de 6. 


Pour un échantillon de taille n la densité conjointe est (en rappelant que 
nous la notons également par f pour simplifier, voir section 5.2) : 


(1,29, En 0) = H/G:0) 


OÙ T(1) = MiN{T1,22,..., Tn} Et T(n) = MAX{T1, T2, .….,%}. Déterminons la den- 
sité conditionnelle de X1, X2,..., X}, sachant X{,, — { qui n’est définie que si 
t € [0 ,6]. Par extension à plusieurs variables de l’expression vue en section 
3.2, elle est égale au rapport de la densité conjointe de (X1, X2,.., Xn, X{n)) à 
la densité marginale de X{,,. Or la densité conjointe de (X1, X2,.…., Xn, X(n)) 
en un point quelconque (x1,%2,..….,%n,t) est égale à la densité conjointe de 
(X1,X2,.., Xn) en (21,22,...,Xn) Si t = max{21,%2,.….,2,} et O sinon, ce qui 
peut s’exprimer par la densité conjointe de l’échantillon multipliée par un fac- 
teur 8(41,%2,...,%n,t) valant 1 ou 0 indépendamment de 0. Par ailleurs nous 
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avons vu dans l'exemple 6.4 que la densité de X,,) au point { € [0,0] vaut 
nt-1/0". D'où la densité conditionnelle de X1, X2,.., X, sachant X(n) =t: 


(1/07) . Lio, +o0((t(1) + F-00,e1(t) - S(æ1, T2, .…., Tu, t) 
ntr-1/0n 


dans laquelle @ disparaît puisque, nécessairement, t € [0,0] ce qui entraîne 
L-o,a(t) = 1. 


La valeur maximale de l’échantillon est donc une statistique exhaustive 
pour l'estimation de 0. Intuitivement on sent bien que, 0 devant être supérieur 
à toute observation, la valeur maximale observée dans l'échantillon livre toute 
l'information utile quant à la valeur possible de 0. Le même résultat peut être 
établi, et attendu intuitivement, pour la loi discrète uniforme sur {0,1,2,...,r}. 
Supposons qu’on ait dans une urne r jetons numérotés de 1 à r où r est in- 
connu. On effectue n tirages (en principe avec remise) et l’on note les numéros 
T1, T2, .…., Zn tirés. Il est clair que seul le numéro maximal observé est pertinent 
pour estimer r. = 


Dans cet exemple on a vu que le calcul de la densité conditionnelle est loin 
d’être immédiat. Le théorème suivant va nous simplifier la tâche. 


Théorème 6.1 Théorème de factorisation. 

La statistique Ty = t(X1, X2,..., Xh) est exhaustive pour 0 si et seulement si 
la densité de probabilité (ou fonction de probabilité) conjointe s'écrit, pour tout 
(t1,%2,...,&n) € R°, sous la forme : 


(ti, 292, Æns 0) = g(t(x1, 22, .…., Æn); 0) h(t1, T2, .…., Tn). 


Nous omettrons la démonstration de ce théorème que l’on trouvera dans 
des ouvrages plus avancés (avec d’ailleurs des conditions mineures de validité). 
Ce théorème indique que si, dans l’expression de la densité conjointe, 0 entre 
uniquement dans un facteur contenant une certaine fonction de æ1,%2,..….,Æn 
alors cette fonction définit une statistique exhaustive. Notons, pour mémoire, 
que la notion d’exhaustivité et le théorème de factorisation reposent sur la 
densité conjointe seulement et, de ce fait, s'appliquent dans un cadre plus vaste 
que celui d’un échantillon aléatoire. 


Reprenons l’exemple précédent où : 


1 
f(x, 20, ….) Ln; Ô) — ga 0,61 (Z(n))-Lj0,+0[(T())- 


On voit immédiatement et sans calculs que x(,) forme avec un facteur isolé 
et, donc, que X,) est exhaustive. 
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Exemple 6.9 Prenons le cas de la loi de Gauss W{(u, 0?) où le paramètre de 
dimension 2, (y,o?), est inconnu. On a : 


nm 


1 
. 2\ 
Ft, En; 1, 0°) = Il (2702)1/2 exp{ 2 


i=1 


En développant (x; — a)? et en regroupant les termes du produit on obtient : 


1 L'ÉSats. DUN AE MU 
. 2 i=1 ‘’i i=L TT? 
Frs no )= (2ro2})"/2 exp { 2 ( a? o2 7e a? : 


Comme n’apparaissent que 375, x? et >, æ, le couple (57%, X;,)};_, X?) 
est une statistique exhaustive. Notons qu'ici, et c’est souvent le cas, dans la 
factorisation la fonction h est réduite à la constante 1. Les propositions ci-après 
montrent que (X,,S2) est également exhaustive. Ceci signifie que dans le cas 
où le phénomène étudié peut être considéré comme gaussien, on peut ne retenir 
de l’échantillon observé que sa moyenne et sa variance. Cette pratique est très 
répandue y compris en dehors du cadre gaussien ce qui peut signifier une perte 
d’information pour ce qui concerne l’estimation d’un paramètre inconnu. 


Proposition 6.3 Soit T, une statistique exhaustive et T}, une statistique telle 
que Th soit une fonction de T}. Alors T}, est également exhaustive. 


Pour montrer cela, explicitons les fonctions en jeu avec T,, = u(T}) et T} = 
L'(X1, X0,.., Xn), d'où Tn = u(t'(x1,%2,.….,2n)). Comme T, est exhaustive la 
densité conjointe peut s’écrire : 


fai,20, tn: 0) = g(u(t'(x1, x, ….,2n)): 0) h(t1, T0, Æn). 


Le premier facteur contenant 0 dépend des observations à travers la fonction 
l’(t1,%2,..., Zn) qui définit 7} laquelle est donc exhaustive. 


Proposition 6.4 Soit T, une statistique exhaustive et T}, une statistique telle 
que T} = r(T) où r est une fonction bijective. Alors T} est aussi exhaustive. 


Ceci résulte immédiatement du fait que l’on ait T, = r!(T/) et que l’on 
puisse appliquer la proposition 6.3. 


La proposition 6.3 montre que la notion d’exhaustivité telle que nous l’avons 
définie n’implique pas une réduction au minimum de l'information utile dans 
l'échantillon pour estimer 4, mais une réduction suffisante (en anglais une sta- 
tistique exhaustive est appelée sufficient statistic). Ainsi l'échantillon dans son 
ensemble : (X1, X2,..., X\), est une statistique évidemment exhaustive. Or, s’il 
s’agit d'estimer un paramètre de dimension k, on peut s’attendre (à condition 
que le nombre d’observations n soit supérieur à k, ce que nous supposerons 
implicitement) à ce qu’une statistique exhaustive de dimension k procure un 
résumé minimal de l’information. Toutefois la proposition 6.4 nous dit que 
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celle-ci sera définie à une bijection près. Ainsi pour la famille N(y, o?), la sta- 
tistique exhaustive (X,, $2) est sans doute minimale pour estimer (4, a?). Nous 
pouvons définir formellement la notion d’exhaustivité minimale de la façon sui- 
vante. 


Définition 6.9 On dit que la statistique TŸ est exhaustive minimale si 
elle est exhaustive et si, pour toute statistique exhaustive T},, on peut trouver 
une fonction u telle que T* = u(Th). 


La recherche d’une statistique exhaustive minimale ne sera pas abordée ici. 
Toutefois nous pourrons admettre intuitivement que, si @ € R", une statis- 
tique exhaustive à valeur dans R' est en règle générale minimale. La 
mise en évidence d’une statistique exhaustive minimale est particulièrement 
importante pour l’estimation. En effet une statistique qui contiendrait soit une 
partie seulement de l’information relative à 0, soit une part superflue, ne saurait 
être considérée comme un estimateur adéquat de 0. Nous énonçons donc le prin- 
cipe suivant : tout estimateur pertinent est fonction d’une statistique 
exhaustive minimale. 


Pour ce qui concerne la classe exponentielle (voir section 6.3) montrons 
qu’une telle statistique existe et est aisément identifiable. 


Proposition 6.5 Soit une loi mère appartenant à une famille paramétrique 
de la classe exponentielle, avec un paramètre de dimension k. Alors, dans les 
notations de la définition 6.1, la statistique de dimension k : 


5 di(Xi), >_d(x), “e Dax) 


est exhaustive minimale pour le paramètre inconnu. 


Ceci résulte immédiatement du théorème de factorisation. En effet la densité 
(ou fonction de probabilité) conjointe f(x1,t2,.…,æn:0) peut s’écrire : 


IL /(:0) = [a(o)]" [Lx EXP {a >_di(æi) rec) D at} ‘ 


i=1 i=1 


Ainsi le tableau 6.1 nous livre directement les statistiques exhaustives mini- 
males pour la plupart des lois usuelles. 


Exemple 6.10 Soit la loi de Bernoulli B(p). On peut écrire sa fonction de 
probabilité : 
f(x:0)=p"(i-p)*, xe{0,1} 


f(x:0) = (1—p)exp{x.h- _ 
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qui répond à la forme de la classe exponentielle avec d(x) = x. On peut vérifier 
directement que 3°_, X; est exhaustive, car la densité conjointe : 


nm 


IL /0) = pias( pis 


i=1 


ne dépend que de D}, ti. = 


Pour les lois binomiale, binomiale négative, de Poisson, exponentielle et 
gamma avec un seul paramètre inconnu on a également d1(x) = x, c’est-à-dire 
que Ses X,; ou, par bijection, À est une statistique exhaustive minimale. L’im- 
plication pratique de ce résultat est que les estimateurs pertinents du paramètre 
concerné sont à rechercher parmi les fonctions de X uniquement. 


Pour la loi de Gauss le tableau 6.1 indique que le couple (577, X?,37_, X;) 
est exhaustif minimal ce qui corrobore le résultat trouvé de manière directe dans 
l'exemple 6.9. 


Pour la loi de Pareto di(x) = Inx, donc ÿ_, In X; est exhaustive minimale 
et, celle-ci s’écrivant In([[;_, X;), [[;_, X: l’est aussi. 


Enfin pour la loi bêta le couple (37%, InX;, 3, n(1—X;)) est exhaustif 
minimal pour (a, 8), tout comme le couple ([[#_, X;,[[#_,(1 — X;)). 


On peut montrer que pour la classe des densités (ou fonctions de probabilité) 
répondant à certaines conditions dites conditions de régularité (précisées 
dans la note 6.1 ci-après) une famille de loi dont le paramètre inconnu est 
de dimension k ne peut admettre une statistique exhaustive dans R que si 
elle appartient à la classe exponentielle. Il y a donc équivalence entre ap- 
partenance à la classe exponentielle et existence d’une statistique 
exhaustive de même dimension que le paramètre inconnu. 


Ainsi la famille des lois de Weïbull, par exemple, qui répond aux conditions 
énoncées ci-après, mais qui n’est pas dans la classe exponentielle, n’admettra 
pas de statistique exhaustive de dimension 2. De fait, de par la forme de la 
densité : 

fa, À) = art le" (x > 0), 


aucune factorisation (au sens du théorème de factorisation) faisant apparaître 
une fonction de æ1,%2,...,%n à valeurs dans RP avec p < n n’est possible. Une 
statistique exhaustive minimale est donc de dimension n. Pour toute situation 
de ce type la statistique exhaustive minimale est, en fait, le vecteur des sta- 
tistiques d'ordre (X(1,, X(2,,.…, X(n)) et non pas (X1, X2,..., XA) lui-même. En 
tout état de cause aucun véritable résumé n’est possible si l’on veut conserver 
toute l'information utile pour estimer (À, «). Ceci est également vrai pour le pa- 
ramètre («, 6) de la loi de Gumbel et, dans le cas discret, pour le paramètre M 
de la loi hypergéométrique, ces lois n’appartenant pas à la classe exponentielle. 
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Note 6.1 Conditions de régularité. 

Dans le cas d’une densité, des conditions suffisantes sont que f(x; 0) soit déri- 
vable deux fois par rapport à x à l’intérieur du support de f et dérivable par 
rapport à 0 dans © (ou par rapport à chacune de ses composantes si k > 1). 
Ceci est vérifié pour les familles classiques dont les densités reposent toutes 
sur des fonctions mathématiques dérivables. Mais ceci exclut les familles 
dont le support dépend du paramètre inconnu. Prenons de nouveau la 
loi #[0 ,6] dont la densité est f(x:0) = 2 Ib,a(x). La présence de la fonction 
indicatrice empêche la dérivabilité par rapport à 0 en tout 0 € R*. En effet, 
x étant fixé, pour 0 < x la densité vaut 0 et pour 0 > x elle passe à 1/08. 
Elle est donc discontinue et à fortiori non dérivable en 0 = x. C’est pourquoi 
cette famille, quoique n’étant pas dans la classe exponentielle, peut admettre 
toutefois une statistique exhaustive de dimension 1, à savoir le maximum des 
X; comme on l’a montré dans l’exemple 6.8. 


Pour conclure, la notion d’exhaustivité nous a permis de mettre en évidence, 
pour la plupart des lois usuelles, quelles sont les statistiques à retenir qui, à 
une fonction bijective près, devraient déboucher sur des estimateurs pertinents 
pour 0. Nous nous tournons maintenant vers la classe des estimateurs sans biais 
où nous pourrons encore préciser les choses et obtenir des résultats tangibles 
dans la recherche des meilleurs estimateurs. 


6.6 Recherche des meilleurs estimateurs sans 
biais 
6.6.1 Estimateurs UMVUE 


Si l’on privilégie maintenant un estimateur sans biais l’objectif se ramène, 
pour le critère de l’erreur quadratique moyenne, à rechercher l’estimateur dont 
la variance, en l’occurrence la dispersion autour de 0 lui-même, est minimale. 
Toutefois, comme 0 est inconnu, cela n’a d'intérêt que si un tel estimateur 
domine tous les autres quel que soit 0 € @, c’est-à-dire uniformément en 0. Il 
est possible qu’un tel estimateur n'existe pas, mais nous allons voir dans le cas 
de la dimension 1 qu’il existe effectivement et peut être mis en évidence pour 
la classe des familles exponentielles qui recouvre la plupart des lois usuelles. 


Définition 6.10 On dit que l’estimateur T* est UMVUE pour 0 (uniformly 
minimum variance unbiased estimator) s’il est sans biais pour 0 et si pour tout 
autre estimateur T}, sans biais on a : 


Vo(Tr) < VolTn), pour tout 0e 6. 


Nous adoptons ici le sigle anglais UMVUE utilisé internationalement. 


Proposition 6.6 Si la famille de la loi mère appartient à la classe exponen- 
tielle avec paramètre de dimension 1 (9 € R) et s'il existe une statistique 
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fonction de la statistique exhaustive minimale 57%, d(X;) qui soit sans biais 
pour 0, alors elle est unique et elle est UMVUE pour 6. 


La démonstration de ce théorème dépasse le cadre de cet ouvrage. Selon 
cette proposition, pour trouver le meilleur estimateur, s’il existe, il suffit de 
rechercher la fonction de ÿ};_, d(X;) qui soit sans biais pour 6, quel 
que soit 0 € ©. L'existence d’un estimateur UMVUE est donc subordonnée à 
celle d’une fonction de la statistique exhaustive minimale qui soit sans biais 
pour 0. Ce théorème vaut aussi pour estimer une fonction (8) de 6. 


Exemple 6.11 Soit à estimer le paramètre À > 0 de la loi exponentielle dont 
la densité est : 
f(æX)= 2e", si x >0 (0 sinon). 


Pour cette famille (voir tableau 6.1) on à d(x) = x et la statistique exhaustive 
minimale est, à une bijection près, >, X;. Or E(3_, X5) = nE(X) = 
n/} et cette statistique n’est évidemment pas sans biais pour À. Examinons 
plutôt n/3=_, X; = 1/X dont on peut penser qu’elle fasse l’affaire puisque 
la moyenne de la loi est 1/À (c’est l’estimateur par la méthode des moments). 
Calculons son espérance mathématique en posant T, = 3, X;. On sait (voir 
section 4.2.3) que T,, suit une loi l'(n , À) d’où, supposant n > 1: 


1 Fe. À 
2 t n—1 —Àt 
E(7) Î 0" le a 


car on reconnaît que l’expression intégrée est la densité de la loi F(n — 1 , À). 
Donc, en fait, il faut choisir (n—1)/T,, pour estimer À sans biais, un résultat qui 
n’est absolument pas intuitif. Par conséquent (n—1)/ 57, X; est l’estimateur 
UMVUE de À. On ne peut en conclure directement qu’il domine en e.q.m. 
l’estimateur des moments, car celui-ci est biaisé. Toutefois, comme ce dernier 
vaut n/(n — 1) fois le premier sa variance est supérieure et il est effectivement 
dominé. = 


Pour la loi de Bernoulli la statistique exhaustive minimale est également 
5, Xi (voir tableau 6.1) et comme le paramètre p est la moyenne de la 
loi, E(X) = pet X est l’estimateur UMVUE. Dans une situation de sondage 
une proportion observée dans l’échantillon est UMVUE pour la proportion 
correspondante dans la population. 


Pour la loi de Poisson X, le nombre moyen d’occurrences observées par unité 
de temps (ou de surface dans un problème spatial), est également l’estimateur 
UMVUE pour À. 
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Pour la loi de Gauss, à supposer que la variance a? soit connue (une situation 
assez hypothétique mais souvent envisagée comme cas d’école) on à encore 
d(x) = x pour ce qui concerne l’estimation de 4 et X est donc UMVUE. 


Le cas de la loi l'(r, À), où seul À est inconnu, est de même nature que celui 
de la loi €(À). 


Pour la loi de Pareto avec seuil a connu on a d(x) = Inx et l’on montre que 
(n—1)/37;_, m(X;/a) est UMVUE pour 8 (voir exercices). 


Prenons encore un exemple utile en pratique, celui de la loi binomiale 
négative BN(r, p) où r est connu. En effet dans certaines situations on voudra 
estimer la probabilité de succès p dans un processus de Bernoulli en obser- 
vant le nombre d'essais qu’il aura fallu effectuer jusqu’à voir le r-ième succès 
(nous prendrons ci-après la version de la loi binomiale négative où la v.a. est 
le nombre total d'essais, voir section 4.1.4). 


Exemple 6.12 Soit X qui suit la loi BW(r,p) avec r connu et p inconnu, de 
fonction de probabilité : 


fin) = ( 


Pen ja —p}" 7, æ=rr+1,… 

x—T 

Elle appartient à la classe exponentielle avec d(x) = x et 37°, X; est donc 
statistique exhaustive minimale. Toutefois comme E(X) = r/p, elle n’est évi- 
demment pas sans biais pour p. L'intuition nous oriente vers r/X (estimateur 
de la méthode des moments) mais le calcul montrerait que cette statistique 
reste biaisée. Nous allons voir qu’il faut prendre (nr — 1)/(57%_, X; — 1) pour 
obtenir la statistique sans biais et donc UMVUE. 


Remarquons tout d’abord que 57°, X; correspond au nombre d'essais jus- 
qu’à atteindre le nr-ième succès, car il est licite de mettre les séquences d'essais 
bout à bout étant donné la nature du processus de Bernoulli. En conséquence 
cette statistique suit une loi BNW{(nr,p). Le problème à plusieurs observations 
est donc identique au problème à une seule observation : il suffit de remplacer 
r par nr. D'ailleurs, en pratique, on n’effectuerait qu’une série d’essais après 
avoir choisi une valeur de r. Restons-en donc à n = 1 et calculons 


r—1 + r—1 (x —1)! : aie 
ES) es ee LA p) 


TT 


DS ‘e o pi p} FD 


en posant t = x — 1. On reconnaît dans la dernière sommation le terme général 
de la loi BW(r — 1 ,p), d’où E((r—1)/(X —1)) = p, ce qui prouve que 
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(r—1)/(X —1) est l’estimateur recherché, un résultat que l'intuition ne pouvait 
laisser prévoir. E 


Si, sur le plan théorique, le cas des familles de la classe exponentielle est 
résolu, la recherche est plus délicate pour d’autres familles comme les lois uni- 
forme {{[0,0], Weibull, Gumbel et hypergéométrique. On montre cependant 
que pour les statistiques exhaustives minimales dites complètes - une propriété, 
hélas, généralement difficile à vérifier - la proposition 6.6 énoncée pour la classe 
exponentielle se généralise : une statistique exhaustive complète qui est sans 
biais est UMVUE pour 0. Par ailleurs un théorème (dit de Rao-Blackwell) 
établit, dans les conditions les plus générales, qu’à partir d’une statistique 
sans biais quelconque on peut déduire une statistique sans biais qui domine 
la première en la conditionnant sur une statistique exhaustive. 


Ainsi, globalement, peut-on conclure qu’on aura toujours avantage à recher- 
cher une fonction d’une statistique exhaustive, minimale si possible, qui soit 
sans biais pour 6. 


Note 6.2 : Unestatistique Test dite complète pour 0 s’il n'existe pas de fonction de 
T°, mis à part la fonction constante, dont l’espérance mathématique soit indépendante 
de Ô, donc : 


Eol[g(T)] = c pourtout 0€ O — g(t) = c pour toute valeur possible t. 


Bien que la définition ne concerne que l’espérance mathématique il s'ensuit, en vérité, 
qu'aucune fonction de T' non constante ne peut avoir une loi indépendante de 0. Ceci 
n’est pas nécessairement vrai pour une statistique exhaustive minimale et le fait pour 
une statistique d’être complète signifie une réduction encore plus forte de l’information 
utile. Aussi une statistique complète est-elle a fortiori toujours exhaustive minimale. 


À titre d'illustration montrons que X{,, est complète dans la famille UI[0 ,8] et, 
comme nil x (n) est sans biais pour ® (voir exemple 6.4), cette fonction de X (n) e5t 
donc nécessairement UMVUE. Nous avons vu dans l'exemple 6.4 que la densité de 
X(n) est (4; 0) = nt-10" pour 0 € @. Supposons qu’il existe I(X(n)) telle que : 


0 
E[g(X(n))] = 1. g(t}nt"-10 "dt = c pour tout 0 >0 
0 


ou : t)-dn- 19 4-0 = fj{g(t)-dé"-1dt= 0. 
En dérivant par rapport à 0 on obtient : 
[g(8) — «0! = 0 pour tout 0>0, 


ce qui implique g(0) = c et X(n) est complète. Ainsi, si l’on privilégie le choix d’un 


estimateur sans biais, nil x (n) est celui qu’il faut retenir. 
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6.6.2 Estimation d’une fonction de 6 et reparamétrisation 


Comme nous en avons fait état en section 6.2, il se peut que l’on souhaite 
estimer une fonction (4) qui corresponde à une valeur caractéristique parti- 
culièrement intéressante de la loi mère. Si cette fonction est bijective et deux 
fois dérivable tous les résultats ci-dessus restent valables et le problème reste 
de rechercher une fonction d’une statistique exhaustive minimale qui soit sans 
biais pour A(4). On peut aussi considérer k(0) comme une reparamétrisation de 
la famille : posant p — h(0) comme nouveau paramètre, il suffit de substituer 
h=t(p) à 0 dans l'expression de f(x; 0). 


Exemple 6.13 Soit à estimer e-”, la probabilité qu’il n’y ait aucune occur- 
rence dans une unité de temps donnée, pour une loi de Poisson. Sachant que 
D Xi = T est exhaustive minimale, montrons que (ENT est sans biais 
pour e*, rappelant que T suit une loi P(nÀ). D'où : 


& (( )) : > Ce) en 


el 
nd 


ui est e_ car la sommation est le développement en série entière de el DA. 
q PP 


En conclusion (2=1)25-1 À; est UMVUE pour e-*. EH 
6.6.3 Borne de Cramer-Rao et estimateurs efficaces 


Sous certaines conditions de régularité, à la fois pour la famille étudiée et 
pour l’estimateur sans biais considéré, on peut montrer que sa variance ne 
peut descendre au-dessous d’un certain seuil qui est fonction de 8. Ce seuil, 
appelé borne de Cramer-Rao, est intrinsèque à la forme de la densité (ou de la 
fonction de probabilité) f(x;0). L'intérêt de ce résultat est que, si l’on trouve 
un estimateur sans biais dont la variance atteint ce seuil, alors il est le meilleur 
possible (UMVUE) parmi les estimateurs sans biais «réguliers». 


Théorème 6.2 (Inégalité de Cramer-Rao ou de Fréchet). Soit T un esti- 
mateur sans biais pour 0 de dimension 1. Sous certaines conditions de régularité 
on a nécessairement, pour tout 0 € @ : 

1 
n1(0)’ 


Ve(T) 
où 1(0), appelé information de Fisher, vaut : 


1(0) = Eo CELL) 
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Nous omettrons la démonstration de ce théorème. 


Si un estimateur sans biais pour 0 atteint la borne de Cramer-Rao, on dit 
qu'il est efficace. 


Note 6.3 Les conditions de régularité, dans le cas continu, sont les suivantes : 


- T(0) existe pour tout 0 € @ 


- la dérivée par rapport à 0 d’une intégrale sur la densité conjointe 


ff fa, %0,..,2%,;0)dridt2 dx, 


peut s’obtenir en dérivant à l’intérieur de l'intégrale 


- la dérivée par rapport à 0 de E9(T) peut s’obtenir en dérivant à l’intérieur de 
l'intégrale correspondante 


- le support de f(x; 0) est indépendant de 6. 


Dans le cas discret les conditions portent sur les sommations en lieu et place des 
intégrations. 


Avant d'illustrer cette inégalité de Cramer-Rao montrons succinctement que 
I(0) peut aussi se calculer selon : 


2 


10 = 50 | 2 


De M ÉA: a). 


ce qui facilitera généralement les calculs (toutefois cela suppose bien sûr que 
cette expression existe, mais aussi que l’on puisse dériver deux fois sous le signe 
somme comme dans la démonstration qui suit). Nous nous restreindrons au cas 
où f est une densité. 


Démonstration. Posons : 


Ô D F(X:0) 
= in FAT ON = PRE, 
PS 5 ER 0 
On a 
C0] 
_ f æf(6),,. 1 x O\dr — 
BU) = [JO = | Sgf(r)dr = 2x | Fe = 
puisque cette intégrale est égale à la constante 1. De plus : 
o? D L(50).f (250) — f(x: 0) 


3e f(x; 0) = MODE 


( 
- re ami(e 
f(x: | 
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d’où : 
ch dr (X50) 
Ep E in FX 0) = Ep "FU 0) — E9 [U?] 
Or : 


Eo 


f(X0) _ r 06? 


6 : 
Er) = o f(x; 0)dx = | ftr:0r =0, 
R 


ce qui démontre la relation. 


L'expression de l’information de Fisher pour certaines lois de la classe ex- 
ponentielle est donnée dans le tableau 6.1 de la section 6.3. 


Exemple 6.14 Soit à estimer le paramètre À dans la famille des lois £(À) de 
densités f(x; À) = 1e" pour x > 0. Déterminons la borne de Cramer-Rao. 
On a : 


In f(x; À) = In À — Àx 


Ô 

5x nf; À) TT 4; 
®? 1 
af) = 


D'où : 


et la borne de Cramer-Rao est donc égale à \?/n. 


Dans l'exemple 6.11 on a vu que (n—1)/3 7}, X; est UMVUE pour À. Par 
le même type d’argument que pour le calcul de l’espérance de cet estimateur 
effectué alors dans cet exemple, on montre (en supposant n > 2) que sa variance 


est : 
n— 1 x X2 
V 7 = > —. 
D Xe n—2 n 
Comme il s’agit là du meilleur estimateur possible, la borne de Cramer-Rao 
n’est donc pas atteignable : il n’existe pas d’estimateur efficace pour À. [ | 


Le problème qui se pose est de savoir si et quand il existe un estimateur 
sans biais pour 0, ou éventuellement pour une fonction A(4) qui atteigne la 
borne de Cramer-Rao. La proposition 6.7 apportera la réponse, mais pour bien 
la comprendre il n’est pas inutile de voir au préalable les implications d’une 
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reparamétrisation de la famille étudiée. Considérons donc un changement de 
paramètre p — h(0) qui ne remette pas en cause les conditions de régularité. 
Pour un estimateur sans biais de p la variance est bornée par CIDL Montrons 
que 1(p) peut se déduire aisément de Z(0). 


En notant simplement par f(x;p) la densité (ou fonction de probabilité) 
reparamétrisée avec p, On à : 


ô Ô d0 Ô 1 
ap M /GP) _ 50 2 f(x: 6) = 90 2 f(x: 6) h7(0) ; 
d’où 
: o) ANT a 0 
I(p)=E, (msn) | E moe À (mr) | __ [h/(8)P2° 


où 0 doit être remplacé par h71(p). 
En d’autres termes, la borne de Cramer-Rao pour estimer h(0) est : 


[R'(0))° 
n1(0) 


Proposition 6.7 La borne de Cramer-Rao n’est atteinte que : 
- si la famille de lois est dans la classe exponentielle 
- et pour l'estimation d’une fonction de reparamétrisation particulière de 6, 


à savoir h(0) = Eo (321 d(Xi)). 


Nous admettrons cette proposition. Ainsi il n'existe qu’une fonction de 
Ô qui puisse être estimée de façon «efficace». Pour déterminer cette fonc- 
tion il suffit de calculer l'espérance mathématique de 37, d(X;) qui en est 
donc l’estimateur efficace. En réalité, pour être plus précis, cette fonction est 
définie à une transformation linéaire près, ah(4) + b étant estimé sans biais par 
a D ir d(Xs) + b. 


Cette proposition montre que, malgré tout, le résultat de Cramer-Rao est 
d’un intérêt limité. 


Exemple 6.15 (suite de l'exemple 6.14) Pour la loi exponentielle la borne 
de Cramer-Rao ne peut être atteinte que pour estimer la fonction de À pour 
laquelle 5%, d(X;) = 37°, X; est sans biais, à savoir E(5 7%, X;) = nE(X) = 
?. En reparamétrant avec 9 = A(A) = +, 6 est alors la moyenne de la loi et X 
est l’estimateur qui atteint la borne de Cramer-Rao pour 0. Celle-ci est : 
RO CU) | 1 _® 
n 


I(N  n(/X) nX n° 


On vérifie directement que V(X) = 1V(X) = © puisque 02 = L est la 
variance de la loi. = 
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Pour la loi de Bernoulli et la loi de Poisson où l’on à également d(x) = x, 
la moyenne X estime «efficacement» les paramètres respectifs p et À qui sont 
les moyennes théoriques. 


Pour la loi BW(r,p) avec r connu, on à également d(x) = x. La fonction 


de p qui est estimée efficacement est donc E(3 7%, X;) — tel ou, plus 


r(1—p) 
+ 


simplement, E(X) = 


Pour la loi de Pareto (a connu, 8 inconnu), d(x) = nx et 3 }_, In X; estime 
», ta n . . 2 . 1 n X; 
sans biais % + ne (voir exercices) ou, de façon équivalente, + D 7;_, In(#) 
estime sans biais 3 , de façon efficace. 


Ces deux derniers cas illustrent l’importance très relative de la notion d’ef- 
ficacité dans la mesure où elle est réalisée pour des fonctions du paramètre ne 
présentant pas nécessairement un intérêt central. 


6.6.4 Extension à un paramètre de dimension k > 1 


Evacuons tout d’abord le cas où l’on s'intéresse à une fonction h(0) à va- 
leurs dans R. En effet les notions de biais, de convergence, d’erreur quadra- 
tique, d’estimateur UMVUE restent valables. Il faut cependant noter que les 
qualités de sans biais ou de variance minimale doivent être vérifiées pour tout 
OE OCR, ce qui peut poser problème. On peut, par exemple, vouloir esti- 
mer le quantile d’ordre 0,95 de la loi W{u, a?) où (u,o?) est inconnu, soit la 
fonction g(u,o?) = y + 1,645 Vo?. Les qualités d’un estimateur doivent alors 
être examinées quel que soit le couple (1, a?). 


Nous considérons ici l'estimation simultanée de toutes les composantes 
01,05,...,04, de 0. Le critère d’exhaustivité a déjà été traité avec 4 > 1. De 
même la généralisation de la notion de convergence a été évoquée en section 
6.5.3. Un estimateur T = (T:,12,...,T%) étant un vecteur aléatoire dans R le 
biais est naturellement défini par le vecteur Ey(T) —8 de composantes Ey(T1) — 
01,.…., Eo(Tx) —06% (voir l'espérance mathématique d’un vecteur aléatoire en sec- 
tion 3.8). Pour ce qui concerne l’extension de la notion de variance nous pou- 


vons prendre la somme des variances des composantes > à V(T;), le critère 
d'écart quadratique correspondant étant |[T — 0|? où ||.|| est la norme eucli- 
dienne usuelle dans RF. En effet l’e.q.m. devient : 


k k 
Eg(IIT — 60|7) = Eo > —4;ÿ | = >_Eo([T; — 07) 
k : “à 
= D (Eo(T;) — 0,) + D Vo(T;) 


où le premier terme est le carré de la norme du vecteur des biais et le deuxième 
la variance globale retenue. 
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Toutefois ce critère présente deux inconvénients majeurs. Le premier est 
qu’il est sensible aux différences d’échelle entre les composantes. Ceci peut 
être atténué en introduisant des pondérations de réduction de ces échelles. Le 
deuxième est qu'il ne tient pas compte des covariances existant généralement 
entre les composantes T; du fait que ces T; sont des statistiques fonctions des 
mêmes observations X1, X2,.., Xh. 


Il est donc préférable d'utiliser une notion de dispersion fondée sur la ma- 
trice des variances-covariances Vy(T') du vecteur aléatoire T (voir section 3.8). 
La plus répandue est celle du déterminant de cette matrice, lequel mesure à un 
facteur de proportionnalité près le volume d’ellipsoïdes de concentration autour 
du point moyen Ey(T') dans RŸ. Avec ce critère on a un résultat analogue à la 
proposition 6.6 : si la famille appartient à la classe exponentielle et s’il existe 
un estimateur fonction du vecteur des statistiques exhaustives minimales 


(5 di(Xi), > do(Xi), …, Dax) 


qui soit sans biais pour 6, alors il minimise ce critère uniformément en 0 parmi 
les estimateurs sans biais. 


En fait il minimise également le critère de la somme simple (et même 
pondérée) des variances > Vo(T;). De plus il fournit l’estimateur UMVUE 
pour chaque composante 0; prise isolément. En règle générale on aura avantage, 
comme pour k = 1, à rechercher une statistique vectorielle qui soit fonction des 
statistiques exhaustives minimales et qui soit sans biais pour 6. 


Exemple 6.16 Soit la famille N{u, 0?) où (4,0?) est inconnu, appartenant 
à la classe exponentielle. La statistique (577, X;, >}, X?) est exhaustive 
minimale tout comme (X, $?), laquelle est sans biais pour (y, a?) (voir exemple 
6.9). (X, 2) est donc l’estimateur qui, parmi tous les estimateurs sans biais, a 
le déterminant de sa matrice des variances-covariances le plus faible, quel que 
soit (4,2). On à vu au chapitre 5 que V(X) = o?/n, V(S?) = 204/(n — 1) 
ainsi que l'indépendance de X et S2. Ce déterminant est donc : 


se] 
0 205 
det : 54 — 
| 0 29 | n(n — 1) 


De plus X est UMVUE pour y et S? est UMVUE pour 02. = 


Exemple 6.17 Soit la famille {{[a, b], où (a,b) est inconnu, qui n’appartient 
pas à la classe exponentielle. On démontre que (X(1,, X(n)) est exhaustive mi- 
nimale (et complète). À partir des densités de X{1, et X(,) on établit aisément 
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les deux équations suivantes : 


b—a 
E(X(:) =a+ Et 

Des 
E(X{n)) =b— el 


Pour trouver la fonction dans IR? sans biais pour (a,b) il suffit de résoudre ce 
système d'équations en a et b. La solution étant 


_ RE(X()) - E(X()) 


n—1 


L RE(X(H)) = EX) 


b 
n—1 
NX -X(n) NX(n)—X LAS : 
le couple ( et he D) est sans biais pour (a,b) et donc optimal au 
même sens que dans l’exemple précédent. [ | 


Pour finir décrivons la généralisation de l'inégalité de Cramer-Rao pour 
k> 1. 


On introduit la matrice d’information I(0) symétrique d’ordre k dont l’élé- 
ment en position (4, j) est : 


Ô Ô 
Eo 30, M /(X:6) gg x 6) ; 


moyennant les mêmes types de conditions de régularité que pour k = 1. On 
2 

montre que cet élément peut aussi se calculer par —E9 La 1 f(x:0)] ; 
OU; 

Alors, pour tout estimateur sans biais T, la variance de toute combinaison 


linéaire u‘T des composantes de T, où u est un vecteur quelconque de RF, reste 
1 
supérieure ou égale à ut OT y. Sachant que Vo(u!tT) = uV(T}u où Vo(T) 
est la matrice des variances-covariances de la statistique T (voir section 3.8), 
il est équivalent de dire que V4(T) — 1{1(8)]-! est une matrice semi-définie 
1 


positive, ce que l’on note Vy(T) > E[I(8)]-!, quel que soit 0. 


Ton 


Exemple 6.18 Prenons le cas de la loi N{u, a?) où (u, a?) est inconnu. On a, 
en posant v = 0? : 


: = 1 LÉ pan 
f(x; uv) ss V2rv exp { dv CE Li) } 
ri 1 1 : 
In f(x; u,v) = 5 In(27) 5 nv " (x — y) 
è 7. Q NE Cm A 
On bn = CE) a MG v) = + 2 
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En position (1,1) de la matrice I(u, 0?) on trouve : 


et en position (2,2) : 


E 


sachant que E [(X — u)*] = 304. En position (1,2) ou (2,1) on a : 


sf p G + A) Ee 


car cette expression ne contient que des moments centrés d’ordre impair. D'où : 


2.0 Ia, o2)] 20 
me-($ 1) «(SE 2). 
204 EG 


[æ} 


nm 


Cette matrice est précisément la matrice des variances-covariances du couple 
(X,$2?) qui est donc non seulement optimal au sens vu dans l’exemple 6.16 
mais, de plus, «efficace» pour estimer (y, a?). Él 


6.7 L’estimation par la méthode du maximum 
de vraisemblance 


Nous abordons maintenant deux méthodes générales qui, comme la méthode 
des moments vue en section 6.4, apportent des solutions dans des situations 
variées : l'approche par le maximum de vraisemblance et l'approche bayésienne. 
Nous commençons par celle du maximum de vraisemblance qui est la plus 
universelle (y compris pour des modèles complexes) pour deux raisons : 


1. Elle est facile à mettre en oeuvre, se ramenant à un problème classique 
de résolution numérique. 


2. Elle est optimale et même «efficace» asymptotiquement, ï.e. quand la 
taille de l’échantillon tend vers l'infini. D’un point de vue pratique, pour 
un échantillon suffisamment grand (disons n > 30 pour fixer les idées), 
elle fournit des estimateurs de très bonne qualité. 
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6.7.1 Définitions 


Définition 6.11 Soit un échantillon aléatoire (X;, X2,.…, X,) dont la loi mère 
appartient à une famille paramétrique de densités (ou fonctions de probabilité) 
{f(x;0) ,0 € O6} où O@ C RÉ. On appelle fonction de vraisemblance de 0 
pour une réalisation donnée (x1,%2,.….,%n) de l’échantillon, la fonction de à : 


nm 


L(6;%1,%2, es) _ f(x1, to, 252550) T IL (0). 


i=1 


L'expression de la fonction de vraisemblance est donc la même que celle 
de la densité (ou fonction de probabilité) conjointe mais le point de vue est 
différent. Ici les valeurs +1,22, x, sont fixées (ce seront les valeurs effective- 
ment observées) et on s'intéresse à la façon dont varie la valeur de la densité 
(ou fonction de probabilité) associée à une série d’observations donnée suivant 
les différentes valeurs de 0. Dans le cas discret il s’agit directement de la proba- 
bilité Po(X1 = 21, Xo = 22,.., Xn = Zn). S'il n’y a pas d’ambiguité possible, 
on notera la fonction de vraisemblance simplement Z(0). On dira que la va- 
leur 0, de 0 est plus vraisemblable que la valeur 2 si L(01) > L(@2). En ce 
sens il devient naturel de choisir pour Ÿ la valeur la plus vraisemblable, disons 
OMV, c'est-à-dire telle que la loi f(x; 0MV) correspondante confère la plus forte 
probabilité (ou densité de probabilité) aux observations relevées. 


Définition 6.12 On appelle estimation du maximum de vraisemblance 
une valeur 0MV, s’il en existe une, telle que : 


L(OMV) = sup L(6). 
0ee 


Une telle solution est fonction de (x1,%2,..….,æ»), soit gMv = Rh(t1,%2,..….,Tn). 
Cette fonction h induit la statistique (notée abusivement, mais commodément, 
avec le même symbole que l’estimation) gMv = R(X1,X2,.…., Xh) appelée es- 
timateur du maximum de vraisemblance (EMV)). 


Cette définition appelle quelques remarques : 
oMv 


est une fonction de R° dans RF, associant à tout échantillon parti- 
culier une valeur particulière de 0: 


— généralement l’'EMV existe et il est unique, i.e. quel que soit (æ1,%2,.…., Œn) 
il y à un et un seul maximum pour L(0). On verra cependant dans 
l’exemple 6.22 un cas où il y a plusieurs solutions ; 

— la définition de l’'EMV s’étend à des variables aléatoires non i.i.d. car elle 
ne repose que sur la notion de densité (fonction de probabilité) conjointe. 
Elle s'étend même dans un cadre non paramétrique (voir section 8.5.3) ; 
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— une fois la réalisation (11,292, ..., x) observée, l'estimation est facilement 
obtenue, y compris pour des situations complexes. Il suffit d’utiliser un 
algorithme de maximisation numérique comme on en trouve dans tous 
les logiciels mathématiques. 


Quand les densités (fonctions de probabilité) conjointes sont des produits 
de fonctions puissances et exponentielles, ce qui est le cas la plupart du temps, 
on a plutôt intérêt à maximiser In L(8), appelée log-vraisemblance, ce qui est 
équivalent puisque la fonction logarithmique est strictement croissante. Dans 
les cas «réguliers» où L(8) est continûment dérivable et le support pour la 
famille de lois considérée est indépendant de 6, l'estimation par le maximum 
de vraisemblance (MV) vérifie (pour @ € R) : 


9e  L(6) = 0 
os Il“ 0)| =0 
ou 5 11 ti,0)| = 
ou NAT 0) = 0. 
— 00 LE] 


Cette dernière égalité s’appelle l’équation de vraisemblance. Dans le cas où 
Ô possède k dimensions (01,02, …, 0x), on résout un système de k équations obte- 
nues en dérivant par rapport à chacune des composantes. Mathématiquement, 
le fait d’être solution de l’équation (ou du système d’équations) de vraisem- 
blance n’est pas une condition suffisante pour être un maximum. Toutefois étant 
donné que L(8) admet une borne supérieure en tant que probabilité (cas dis- 
cret) mais aussi, généralement, en tant que densité de probabilité (cas continu), 
et qu’elle est le plus souvent concave, l’équation admettra une solution unique 
qui sera alors nécessairement un maximum. Dans les exemples, pour alléger 
l’exposé, nous n’examinerons pas dans le détail si la solution de l’équation (ou 
du système d’équations) correspond effectivement à un maximum. 


6.7.2 Exemples et propriétés 


Exemple 6.19 Soit la famille de Pareto où a > 0 est connu et 0 est inconnu. 
On à : 


f(x:0) = Gaz OF), si x >a et 0>0 
In f(x;,0)=Im0+0Mma—-(0+1)Inx 
Ô 1 
36 1 f(x: 0) = gtMma-lnz. 


L’équation de vraisemblance s’écrit : 


nm “ nm 2 Ti 
gtnma- ma; =0 ou DD et 


i=1 i=1 
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d’où l'estimation : OMV = n be In(%)] r. 


et l'EMV : PER ÈS m(&)] : u 


Exemple 6.20 Soit la famille W(y, a?) où (y, o?) est inconnu. On a, en posant 


v = o?, 


f(x, u,v) = er 


1 1 
In f(x; u,v) = 5 In(2r) 3 nv (x — u}°. 


En dérivant par rapport à y d’une part et par rapport à v d’autre part, puis 
en remplaçant x par x; et en sommant sur à = 1,...,n, on obtient le système 
d'équations de vraisemblance : 


d’où la solution à = & et à = 5% _,(x; — x)?. L'EMV du paramètre (y, a?) 
est donc (X, 52). = 


On constate sur ce dernier exemple que l'EMV peut avoir un biais. Dans 
les deux exemples il ne dépend que des statistiques exhaustives minimales, ce 
qui est une propriété générale. 


OMV, s'il 


Proposition 6.8 Si T est une statistique exhaustive pour 0 alors 
existe, est fonction de T.. 


Ceci résulte immédiatement du théorème de factorisation. Si la statistique 
T =t(X1,X2,..., X,) est exhaustive, alors la densité (fonction de probabilité) 
conjointe est de la forme : 


g(t(x1, T2, .….,Æn),0) h(æ1,%2,...,dn). 


La maximisation vis-à-vis de 0 ne concerne que la fonction g et la solution ne 
dépend donc des observations qu’à travers la fonction t. Cette proposition est 
vraie pour toute statistique exhaustive et en particulier pour une statistique 
exhaustive minimale. Remarquons que, bien que très intéressante, cette pro- 
priété n’entraîne pas que l’'EMV soit UMVUE car, nous l’avons vu, il peut être 
biaisé. 


La proposition suivante, que nous admettrons, montre l'intérêt de l'EMV 
dans le cas où il existe un estimateur efficace (pour @ € R). 
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Proposition 6.9 Si la famille de lois considérée répond à certaines conditions 
de régularité et si elle admet un estimateur sans biais efficace pour 0, alors 
l’'EMV existe et est cet estimateur. 


Les conditions sont analogues à celles du théorème 6.2 auxquelles s’ajoute 
le fait que L(0) admette une dérivée seconde continue. On pourra vérifier que 
l'EMV est X pour le paramètre À de la loi de Poisson et pour le paramètre 
p de la loi de Bernoulli. Pour la loi exponentielle cela est vérifié pour la repa- 
ramétrisation 0 = 1/À. Prenons maintenant deux exemples de cas non réguliers. 


Exemple 6.21 Soit la famille de loi {{[0, 6]. Reprenant l'exemple 6.8 on voit 
que la fonction de vraisemblance est : 


1 
L(6) gn 100,+01(œ(1))15 60,0 (ro): 


Elle contient 1/9” qui est une fonction décroissante de 4, mais à partir du mo- 
ment où 1_%,91(T(n)) = 1, c’est-à-dire 4 > x(n). Par conséquent, le maximum 
est atteint pour Ÿ = x{,), puisque pour 0 < x(,) la fonction de vraisemblance 
est nulle. L'EMV est donc X{,,. Nous avons vu (voir note 6.2) que l’estimateur 
UMVUE est ##X,,,. L'EMV en est proche, mais il est légèrement biaisé (si 
n n’est pas trop petit). Il est beaucoup plus pertinent que celui de la méthode 
des moments obtenu par X — = , Soit ÿM = 2X, qui ne repose pas sur une 
statistique exhaustive et est intuitivement peu convaincant (voir exercices). M 


Exemple 6.22 Considérons la loi de Laplace, ou loi exponentielle double (voir 
exercices du chapitre 2), de densité : 


1, 
f(x; un) = 5° “WA pour x ER. 
Nous ne sommes pas ici dans un cas régulier car cette densité n’est pas dérivable 
quand x = y. La fonction de vraisemblance : 


1 ñ 
L(y) = ne loin 


n’est donc pas dérivable par rapport à 4 pour u = Æj1,H4 = Æ2,.., 4 = Zn. 
Considérons la log-vraisemblance : 


In L(u) = -nin2— Ÿ_ x — ul. 


Elle est maximale quand 3%, |xi — y] est minimale. La dérivée de |x; — ul, 
pour u £ x;, est égale au signe de (x; — y). On peut donc annuler la dérivée de 
In L(u), si n est pair, en prenant pour valeur de 4 une médiane de l'échantillon, 
soit tout point dans l'intervalle (t(»),t(#1)). Admettant qu'on atteigne bien 
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ainsi un minimum (ce qui est intuitif, la médiane étant au «centre» des obser- 
vations) on voit que l’estimateur du MV n’est pas unique. Dans le cas où n 
est impair la solution reste la médiane, qui est alors unique. La méthode des 
moments donnerait l’estimateur X puisque, par symétrie, y est nécessairement 
la moyenne de la loi. En fait on peut montrer que la médiane est un meilleur 
estimateur, au sens de l’e.q.m., que la moyenne pour cette loi. En particulier le 
rapport de la variance de la médiane empirique à celui de la moyenne empirique 
tend vers 2/3 quand n — ce. E 


6.7.3 Reparamétrisation et fonctions du paramètre 


Une des propriétés séduisantes de l’'EMV est qu'aucun nouveau calcul n’est 
nécessaire en cas de changement de paramètre. On l’appelle la propriété d’in- 
variance. 


Proposition 6.10 Soit p = h(0) une reparamétrisation, alors l’'EMV de p est 
SMV — R(OMV) 
ÿ : 

En effet, soient Lo et L, les vraisemblances respectives de 0 et p. Comme 
h est une bijection, l’ensemble des valeurs prises par L(0) quand 0 décrit @ est 
aussi l’ensemble des valeurs prises par 9 quand il décrit son espace paramétrique 
que nous notons (. Posons ÿ = h(0MV). On a donc : 


Lo(@) = Lo(h (D) = Lo(h  (R(O"V))) = Lo(0"V) 


qui reste supérieur ou égal à L9(0) pour 0 € 6 et donc à L,(p) pour p € (1. 
est donc la valeur (unique) où L, atteint son maximum. 


Ainsi, par exemple, X étant l'EMV du paramètre p de la loi de Bernoulli, 
X/(1— X) est l'EMV du rapport p/(1 — p). Dans la classe exponentielle nous 
avons mis en évidence (voir proposition 6.7) une reparamétrisation qui admet 
un estimateur efficace. Celui-ci, par la proposition 6.9, est l’'EMV pour le pa- 
ramètre correspondant. Pour la loi exponentielle X est efficace pour 0 = 1/À 
et est donc nécessairement l'EMV de 0 (et 1/X est celui de À). 


Pour la loi de Pareto avec a connu, comme Y7}_, In(#) estime de façon ef- 


ficace À (voir exercices), on trouve pour EMV de 8 : [T 5, Im(X;/a)] 1e (voir 


exemple 6.19) alors que l’estimateur UMVUE est EE RE m(X;/a)| ei 


encore on constate qu’on a un léger biais mais qu’on reste proche de l’estimateur 
sans biais optimal. 


Selon la propriété d’invariance, l'EMV du couple (y,ao) de la loi (y, a?) 
est (X, 5). Signalons en passant que si (X,S2) est l’estimateur UMVUE pour 
(u,o?), cela n’est pas vrai de (X,S) pour (u,a) qui est également biaisé (voir 
exercices). Dans le domaine du contrôle de qualité on utilise souvent X(,,—X(1), 


Chapitre 6. Théorie de l’estimation paramétrique ponctuelle 127 


avec un coefficient qui dépend de n et est tabulé, pour estimer o, ce qui est 
moins efficace que S mais évidemment plus rapide. 


Note 6.4 On convient d'appeler A(ŸMV) l’estimateur du maximum de 
vraisemblance pour la fonction h(0) du paramètre, qu’elle soit bijective 
ou non. Ainsi, pour la loi de Gauss de paramètre (y,a?), $ est l'EMV de 
o et X+1,645S est l'EMV du quantile d'ordre 0,95 : w+1,645 o. On donne 
une légitimité à cette appellation en introduisant la fonction de vraisemblance 
L:1(6) définie sur l’ensemble des valeurs 6 atteintes par h(@), qui prend, pour 
un 6 donné, la valeur maximale de L(0) pour l’ensemble des valeurs 0 telles que 
h(0) = 6, i.e. : 


L1(8) = sup ZL(0). 
ATOS 


Alors A(OMV ) est la valeur qui maximise cette fonction de vraisemblance L1 (6) 
induite par la fonction À(0). 


6.7.4 Comportement asymptotique de l’'EMV 


Dans les exemples qui précèdent nous avons pu constater que, sans être 
totalement optimal, l'EMV restait très proche de l’estimateur UMVUE quand 
il existait et ceci d'autant plus que n était grand. Ceci se généralise par la 
propriété essentielle suivante. 


Proposition 6.11 Soit l'échantillon X1, X2,.…., X, issu de la densité (ou fonc- 
tion de probabilité) f(x;0) où 8 E O CR, répondant à certaines conditions de 
régularité qui garantissent notamment l'existence d’un EMV gMv pour tout n. 
On considère la suite {OMV} quand n croît à l'infini. Alors cette suite est telle 


que : 


Vn(OMV 6) £ N(0, 


Nous admettrons ce résultat qui est en fait une application indirecte de la loi 
des grands nombres et du théorème central limite. Les conditions de régularité 
sont celles de la proposition 6.9 complétées d’autres que nous n’expliciterons 
pas car elles peuvent varier selon le type de démonstration. Le résultat énoncé 
dans cette proposition implique les propriétés suivantes : 

LOU guv 


est asymptotiquement sans biais, i.e. Eo( ) —— 6. 


N— 00 


2. pour n tendant vers l'infini, la variance de ŸMV se rapproche de 1/(n1(8)). 
On dit que OMV est asymptotiquement efficace. 

3. des propriétés 1 et 2 on déduit que ÿM V converge vers 0 en moyenne qua- 

dratique (avec un choix adéquat de conditions de régularité on démontre 


que 0MV converge presque sûrement). 
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4. O0MV tend à devenir gaussien quand n s'accroît. 


On résume ces propriétés en disant que l’'EMV est un estimateur BAN (Best 
Asymptotically Normal). 


L'intérêt de ce résultat est double. D’une part il garantit que l'EMV, moyen- 
nant des conditions de régularité, soit de très bonne qualité pour les grands 
échantillons (disons n > 30), d’autre part il va permettre une approximation 
de sa distribution d’échantillonnage par une gaussienne, ce qui sera très utile 
pour établir des intervalles de confiance (voir chapitre 7). La méthode des mo- 
ments est loin d'offrir les mêmes garanties et c’est pourquoi la méthode du 
MV est la méthode de référence, notamment dans les logiciels statistiques. 


Nous attirons l'attention sur le fait que les dites conditions de régularité, si 
elles sont suffisantes pour que l’'EMV soit BAN dans un cadre général, ne sont 
pas nécessaires. Aïnsi pour la loi exponentielle double, vue dans l’exemple 6.22, 
la médiane empirique se trouve être également BAN bien que la fonction de 
vraisemblance ne soit pas dérivable partout. Ceci tient au fait que la dérivabilité 
n’est pas assurée uniquement pour un ensemble discret de points. 


Pour finir signalons deux types d'extension de la proposition 6.11 : 


1. elle reste valable pour estimer une fonction (8) deux fois dérivable, en 
substituant [h/(0)]° /I(9) à 1/1(6) 


2. elle s’étend à un paramètre à k dimensions : lEMV ÿM Vest un vecteur 
aléatoire tel que /n(0MV — 9) tende en loi vers la loi de Gauss multivariée 
à k dimensions de moyenne nulle et de matrice des variances-covariances 
égale à [I(0)]-!, l'inverse de la matrice d’information. Nous verrons une 
application de ce type pour le modèle de régression logistique au chapitre 
11. 


6.8 Les estimateurs bayésiens 


Nous abordons ici l'approche bayésienne qui relève d’une philosophie parti- 
culière de la statistique. D’une façon générale on qualifie ainsi toute approche 
qui confère à tout paramètre inconnu un statut de variable aléatoire 
en stipulant pour celui-ci une distribution sur @ appelée loi a priori. Cette loi 
peut résulter de la connaissance que l’on peut avoir acquise antérieurement sur 
le phénomène ou être un simple artifice permettant de mener à bien les calculs. 
En général on tendra à utiliser une loi a priori à laquelle le résultat final sera 
relativement peu sensible (on définit notamment des lois à priori dites «non 
informatives»). L'espace paramétrique étant généralement continu définissons 
cette loi par une densité, notée r(8). Pour simplifier on supposera le paramètre 
de dimension 1, mais l’extension à une dimension quelconque ne présente pas 
de difficultés. 
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Dans ce cadre, f(x; 0) doit être considérée maintenant comme une densité 
(ou fonction de probabilité) conditionnelle pour la v.a. X étudiée, étant donné 
une valeur fixée du paramètre 0 (il serait donc approprié de Pécrire f(x|0) ). 
En suivant la formule de Bayes qui permet de passer de la loi de probabilité 
d’un événement À sachant B à la probabilité de B sachant À selon : 


P(A|B)P(B) 


P(BIA) = 


on définit la loi a posteriori de 6, c’est-à-dire après avoir pris connaissance des 
réalisations (x1,%2,...,x,) de l'échantillon (X1, X2,..., X,). Ci-après le vecteur 
des réalisations sera noté x et l'échantillon sera noté X. Par transcription de 
la formule de Bayes la densité a posteriori est! : 


0706) 
Fanx=(6) = EG: 057 (0)d6 


où le dénominateur est la densité marginale de X au point x € R” pour le 
(n + 1)-uplet aléatoire (X, 4). Notons que dans cette formule f(x; 0) peut être 
aussi bien une densité qu’une fonction de probabilité. 


On prend alors comme estimation bayésienne ÿB de 0, la moyenne de la 
loi a posteriori. L’estimateur bayésien s’obtient en appliquant à X la fonction 
associant à une valeur de x quelconque la valeur 0F correspondante. 


Les avantages de cette approche sont multiples du fait que l’on dispose d’une 

loi pour 0. Entre autres : 

— on peut déterminer aisément un intervalle de valeurs plausibles pour @ 
(voir chapitre 7 sur l'estimation par intervalles), 

— on peut estimer 0 selon divers critères d’erreur. Le critère des moindres 
carrés, par exemple, choisit le nombre ÿF minimisant E[(9 — 08)?], où 
ici 0 est aléatoire, ce qui correspond à la moyenne de la loi a posteriori 
de 0. Nous l’avons privilégié car il est le plus répandu. Maïs on pourrait 
souhaiter minimiser E(|0 — 08]|) ce qui débouche sur la médiane de la loi 
a posteriori. 

— on peut estimer toute fonction de 0 en calculant directement, pour le 
critère des moindres carrés, l’espérance de A(8) sur la loi a posteriori, 
soit : 


E (h(8)) = : h(6) rox-x(8)db. 


Exemple 6.23 Soit une loi de Bernoulli B(p). La densité conjointe au point 
(t1,%2,...,%n) étant donné p € [0,1] est : 


nm 


IL (e0) = peia( 2 pp Eiae 2 pt py 


i=1 


1Voir à ce propos l’expression d’une densité conditionnelle en fin de section 3.2. 
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où s = »};_, x; est le nombre total de succès observé. Supposons que l’on soit 
dans l’ignorance totale des valeurs préférentielles pour p et prenons une loi a 
priori U[0, 1], donc : r(p) = 1 pour p € [0,1]. La densité a posteriori est : 


= p°(1 — p}"-s.1 . 
Jo ps (1 — p}r-s.1 dp 


Tp|X=x (p) 


où c est la constante appropriée pour avoir une densité. Cette densité est celle 
d’une loi Beta(s,n — s) vue en section 4.2.9. 


D'où l’espérance sur cette loi a posteriori que nous choïisissons comme esti- 
mation de p : 


1 S n—s 
58 = br Gr) dt 
= © : 
Le ps (1 + DIE Pda 
En admettant la formule d'intégration : 


Le __ T(a+1)7(b+1) 
Î z(1 — x)Pdx = LTa+0+2 


où L(r +1) = r! si r est entier, on obtient : 


B_(s+l){n-s)! (n+1)! _ s+1 
ie (n+2)! ‘sln-s) n+2 


Cette estimation correspond à l’estimateur étudié dans l’exemple 6.7 pour le- 
quel il à été montré que l’erreur quadratique moyenne était meilleure que celle 
de l’estimateur UMVUE $, /n lorsque p se situe autour de 1/2. E 


On peut démontrer diverses propriétés générales des estimateurs bayésiens. 
En particulier qu'ils sont convergents quelle que soit la loi a priori x(@) choisie 
(mais ayant pour support @) et même BAN (best asymptotically normal) sous 
des conditions de régularité de la famille {f(x;0)}. On peut également voir sur 
la formule de la densité a posteriori, qu’en raison du théorème de factorisation, 
cette dernière ne dépendra que d’une statistique exhaustive minimale. 


Note 6.5 Étant donné que r(4) figure au numérateur et au dénominateur de 
la densité a posteriori, il est possible de ne la définir qu’à une constante près. 
On peut même envisager des fonctions qui ne sont pas des densités (pourvu 
qu’elles soient positives) considérées alors comme des fonctions de pondération 
des différentes valeurs possibles de 4. Dans l'exemple ci-dessus on pourrait ainsi 
prendre la fonction [p(1—p)]-! qui n’est pourtant pas intégrable sur [0, 1]. Cette 
fonction donne d’ailleurs s/n comme estimation. 


Dans ce chapitre nous avons traité de l’estimation ponctuelle en cherchant 
à dégager les meilleurs estimateurs. Dans le chapitre suivant on considère des 
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«fourchettes» d’estimation où la qualité de précision des estimateurs, en parti- 
culier la variance pour les estimateurs sans biais, jouera un rôle central. 


Pour approfondir l’estimation ponctuelle on pourra consulter l’ouvrage de 
Lehmann et Casella (1998). 


6.9 Exercices 


Exercice 6.1 Montrer que la famille de lois BNW(r, p) avec r connu appartient 
à la classe exponentielle et que d(x) = x. Faire de même pour les lois de Poisson, 
exponentielle et gamma (avec r connu). 


Exercice 6.2 Montrer que la famille des lois de Pareto avec a connu appartient 
à la classe exponentielle et mettre en évidence sa fonction d(x). L’estimateur 
des moments dépend-il d’une statistique exhaustive minimale ? 


Exercice 6.3 Montrer que la famille des lois bêta appartient à la classe expo- 
nentielle et mettre en évidence les fonctions d1(x) et d2(x). Donner l’estimateur 
des moments de (a, 3). Dépend-il d’une statistique exhaustive minimale ? 


Exercice 6.4 Soit la famille W(u,0?) où (u,0?) est inconnu. Déduire la loi 
de S$ de celle de (n — 1)S$?/o?. Montrer que S est un estimateur biaisé de o et 
proposer un estimateur sans biais. 

Aide : calculer E(S) directement sur la loi de (n — 1)5?/o?. 


Exercice 6.5 Soit une famille de lois { f(x; 0)} telle que f(x; 0) s’écrive f(x—0) 
où f ne dépend pas de 9. (On dit que @ est un paramètre de positionnement et 
on note qu’on a également F(x;0) = F(x — 0) pour la fonction de répartition). 
Supposons, de plus, que f soit une fonction paire (lois symétriques par rapport 
à 0). Les résultats suivants seront établis pour n impair (mais sont valables 
pour n = 2k en définissant la médiane de façon unique par 2(X (x) + X(x+1))). 


1. Établir la fonction de répartition, puis la densité de la médiane empirique 
d’un n-échantillon. 


2. Montrer que sa loi est également symétrique par rapport à 6. 


3. En déduire que la médiane empirique est un estimateur sans biais pour 
0. 


Exercice 6.6 Soit la famille de loi £(A). Comparer en e.q.m. les estimateurs 
X et >; X;/(n +1) pour estimer +. 
Aide : utiliser les résultats de l’exemple 6.11. 


Exercice 6.7 Pour une loi mère quelconque ayant un moment d'ordre 4 com- 
parer les e.q.m. de $? et de S? et donner une condition pour que le second 
domine le premier. 

Aide : voir la variance de $? dans l'exercice 5.4. 
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Exercice 6.8 Montrer que X{,, est convergent en probabilité pour Ÿ dans la 
famille Z4[0, 6]. 

Aide : à partir de la fonction de répartition de X{,, écrire la probabilité de 
(| X(n) — 6] 4 €). 


Exercice 6.9 Montrer pour la famille €(À) que l’estimateur UMVUE de À 
domine (en e.q.m.) l’estimateur des moments. On supposera n > 2. 
Aide : utiliser les résultats de l’exemple 6.11. 


Exercice 6.10 Soit la famille de lois (de Raleigh) de densités : 


2 
F0) = G exp | } xæ>0, 8>0. 


Appartient-elle à la classe exponentielle ? Donner une statistique exhaustive 
minimale. Calculer son espérance mathématique et en déduire un estimateur 
sans biais, efficace pour 6. 


Exercice 6.11 Soit la famille de Pareto de paramètre a connu et 0 inconnu. 


1. Montrer que In(#) suit une loi €(8). 


2. Montrer que 
n—1 


Di M(Xi/a) 
est UMVUE pour 6. 
Aide : en calculer l’espérance en s’inspirant du résultat de l’exemple 6.11. 


3. Montrer que 257%, In(*) est sans biais et efficace pour estimer 1/6. 


Exercice 6.12 Soit la famille de lois de Pareto où 0 est connu mais a est 
inconnu. 

1. Constater qu’elle n'appartient pas à la classe exponentielle. 

2. Donner l’estimateur des moments pour a. 

3. Trouver une statistique exhaustive minimale. 

4. Identifier la loi de X{,,. En déduire un estimateur sans biais fonction de 


X (1): 


Exercice 6.13 Calculer la borne de Cramer-Rao pour la famille W{y ,1) où 
Lu est inconnu. Même question pour la famille W(0 , a?) où o? est inconnu. 


Dans chaque cas montrer que l’estimateur naturel est efficace. 
q q 


Exercice 6.14 Soit la famille des lois de Bernoulli B(p). Donner la borne de 
Cramer-Rao pour un estimateur sans biais du rapport p/(1 — p). 
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Exercice 6.15 Calculer la borne de Cramer-Rao pour la famille des lois de 


Cauchy : 
f(x; 0) = TE 0j x ER. 


x(x?—1) 


202 est primitive de 


2 
Aide : £ arctan x + à a - 
Sachant que la médiane empirique M, est telle que /n(M, — 8) converge en 
loi vers la loi W(0, ) vérifier qu’elle n’est pas un estimateur BAN. 


Exercice 6.16 Pour la famille {{[0 , 0] comparer les e.q.m. des 3 estimateurs : 
moments, EMV et nil x (n) qui est la statistique UMVUE (voir note 6.2). 


Exercice 6.17 On considère la loi de Poisson tronquée de la valeur 0. Détermi- 
ner sa fonction de probabilité. Trouver l’estimation du MV pour un échantillon 
de taille 15 de moyenne 3 (ceci nécessite une approximation numérique). 


Exercice 6.18 Trouver l’'EMV pour le paramètre 0 de la loi de Pareto avec 
a connu. Quel est son biais ? (Aide : voir d’abord l’exercice 6.11). Calculer la 
borne de Cramer-Rao et constater que l'EMV est asymptotiquement efficace. 


Exercice 6.19 Soit la famille de densités 
f(xp) = p(p+ rfi x)" pour ze [0,1], 


où p > 0. Donner l’'EMV pour p. 


Exercice 6.20 Soit la famille BW(r, p) où r est connu. Donner l’'EMV pour p 
sur la base d’une seule observation. Même question pour la famille B(n,p) où 
n est connu. 


Exercice 6.21 (capture-recapture) Un étang contient N poissons où N est 
inconnu. M (connu) poissons ont été marqués. On pêche (sans remise) jusqu’à 
ce qu’on obtienne le premier poisson marqué. Soit X le nombre de poissons 
qu’on doit ainsi pêcher. Donner la loi de X en supposant un tirage aléatoire 
sans remise. En déduire l’équation de vraisemblance de N associée à une (seule) 
observation + de X. Application : résoudre numériquement avec M — 100 et 
x = 3 pour donner une estimation de N. 


Exercice 6.22 Donner l’estimateur du MV pour le paramètre À d’une loi 
T(r, À) où r est connu. Donner une approximation de sa loi pour n grand. 


Exercice 6.23 Soit la famille des lois de Bernoulli B(p). Donner la loi a pos- 
teriori pour p en utilisant une loi a priori proportionnelle à 4/p(1 —p) et en 
déduire l’estimation bayésienne de p. 

Aide : on utilisera la formule d'intégration de l’exemple 6.23 et la relation 
T(a +1) = al (a). Généraliser à une densité a priori Beta(a, B). 


Chapitre 7 


Estimation paramétrique 
par intervalle de confiance 


7.1 Définitions 


Dans le chapitre précédent, l’objectif était de donner une valeur unique pour 
estimer le paramètre inconnu 0. Dans ce chapitre, nous souhaitons donner un 
ensemble de valeurs plausibles pour @ essentiellement sous forme d’un inter- 
valle. Dans le vocabulaire courant, pour les sondages notamment, c’est l’idée 
de «fourchette». 


Il y à évidemment un lien entre l’approche ponctuelle et l'approche par in- 
tervalle, la seconde s'appuyant pour beaucoup sur les résultats de la première. 
Si l’on s’en tient aux estimateurs sans biais, un estimateur de variance minimale 
restera au plus proche de 0 et on imagine qu’il sera un bon point de départ 
pour fournir un encadrement. D'autre part, on s'attend à ce que sa variance 
soit déterminante pour la largeur de l’intervalle. Cependant nous n’approfon- 
dirons pas vraiment la notion d’optimalité pour un intervalle de confiance et 
consacrerons l'essentiel des développements à la construction de tels intervalles. 
Pour celle-ci nous verrons tout d’abord une méthode générale exacte, mais qui 
est subordonnée à l’existence d’une «fonction pivot», et ensuite une méthode 
asymptotique de portée plus générale, reposant sur une approximation gaus- 
sienne en particulier via l’estimateur du maximum de vraisemblance. 


Après l’approche générale nous établirons les intervalles de confiance clas- 
siques pour les moyennes et variances dans le cas gaussien et pour les pro- 
portions dans le cas Bernoulli. La méthode des quantiles sera développée pour 
indiquer une procédure applicable aux petits échantillons (notamment dans les 
cas Bernoulli et Poisson). 


Par ailleurs, un mode de construction, fondé sur une procédure de test, sera 
vu ultérieurement dans le chapitre 9 (section 9.8). 
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Définition 7.1 Soit X1,X2,---,X, un échantillon aléatoire issu d’une loi de 
densité (ou fonction de probabilité) f(x;0) où 0 € © est un paramètre inconnu 
de dimension 1. On appelle procédure d’intervalle de confiance de niveau 
7 tout couple de statistiques (T1, T2) tel que, quel que soit 0 E @, on ait : 


PT <0<TD) > 7. 


En pratique on choisira 7 assez élevé : couramment —0,95. Ainsi, il y 
a une forte probabilité pour que l’intervalle à bornes aléatoires [T:,72] 
contienne la vraie valeur de 0. De façon imagée, on peut dire que dans l’univers 
des échantillons possibles, pour une proportion au moins y d’entre eux, on 
obtient un intervalle qui contient 6. 


Dans certaines situations, on peut n’être intéressé qu’à établir une borne 
inférieure ou une borne supérieure pour 4, T\ ou T2 étant rejeté à l'infini. On 
parle alors d'intervalle de confiance unilatéral (par opposition à « bilatéral »). 


Exemple 7.1 Prenons l’exemple quelque peu artificiel d’une loi mère gaus- 
sienne dont la variance serait connue et supposons qu’elle soit égale à 1. On a, 
par centrage-réduction de la moyenne empirique du n-échantillon : 
X — 
ES W(0;1) 
Vr 


4 — 
P(-1,96 < 21,96) = 0.95 


1,96 LX SE 1,96 
VA Fe va 


) = 0,95. 


L'événement (—1,96//n < X — y) est équivalent à (y < X+1,96//n) et, de 
même, (X — y <1,96/4/n) équivaut à (X—1,96//n < y). On voit finalement 
que l'événement (—1,96/,/n < X — y <1,96/\/n) est identique à l'événement 
(X—1,96/ Vn < u < X+1,96//n), d'où : 


= 1,96 = 1,96 
PA TE <H<X +) = 0,95 


Va Va 


et ceci quel que soit u, ce qui prouve que [X—1,96//n, X +1,96/,/n] constitue 
une procédure d'intervalle de confiance (IC) de niveau 0,95. On voit sur cet 
exemple que la «largeur» de l’intervalle est proportionnelle à l’écart-type 1/,/n 
de l’estimateur ponctuel X pour u. 5 
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Note 7.1 Pour les cas continus, comme dans l’exemple précédent, on peut 
espérer atteindre exactement le niveau 7 que l’on s’est fixé, du fait de la conti- 
nuité des fonctions de répartition. Pour les cas discrets, cependant, un niveau 
de probabilité donné peut ne pas être atteint en raison des sauts de disconti- 
nuité. Nous donnerons plus loin un exemple illustrant cela. On se devra alors 
d’avoir une attitude conservatrice, c’est-à-dire d'utiliser une procédure garan- 
tissant que [71,72] ait une probabilité de couvrir 0 qui soit au moins égale au 
niveau nominal +. C’est pourquoi il est nécessaire que y apparaisse comme une 
borne minimale de probabilité dans la définition 7.1. Notons encore, au vu de 
l'exemple 7.1, que le choix de l'intervalle n’est pas unique. On aurait également 
pu prendre : 


P(20,03 < I L < 20,98) = 0,95 


Va 


comme point de départ ou tout autre couple de quantiles (24, 20,95+a) avec 

a € [0:0,05]. L'usage veut, même si la procédure n’est pas nécessairement 

optimale, que l’on choisisse, comme nous l’avons fait, le couple (21-:,21+ ). 
2 2 


En fait ce choix est celui qui donne la largeur minimale lorsque la densité de la 
loi utilisée pour les quantiles est symétrique et n’a qu’un seul mode. 


Définition 7.2 Dans le contexte de la définition 7.1, soit æ1,æ2,--- ,æ, une 
réalisation de X1,X2,:-:, Xn conduisant à la réalisation (t1,t2) de (Ti,T>). 
Alors l'intervalle [t1,t2] est appelé intervalle de confiance de niveau 
pour 0 et l’on note : 


IC, (0) = [hrsto]. 


L’intervalle de confiance est donc l’application numérique de la pro- 
cédure suite à la réalisation de l'échantillon. Supposons que dans l’exemple 
précédent, avec un échantillon de taille 9, on ait observé la valeur 6 pour la 
moyenne de cet échantillon, alors : 


1.96... 1.96 
V9" V9 


On ne peut dire à proprement parler (même si la tentation est forte) que 
cet IC contient w avec probabilité 0,95 du fait qu'il s’agit d’une réalisation. Soit 
il contient y, soit il ne le contient pas. C’est la procédure choisie en amont qui 
garantit a priori une telle probabilité. C’est pourquoi on parle d’un niveau de 
confiance et non de probabilité pour un IC. 


ICo,95 (a) — 6 


© [5,35 ; 6,65]. 


Note 7.2 Lorsque l'intervalle sera symétrique par rapport à l’estimation ponc- 
tuelle on pourra aussi noter, comme pour l’application ci-dessus : 


1,96 
Ti 


ICo,95(1) = 6 = 
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Note 7.3 On remarquera que le fait d'augmenter le niveau de confiance accroît 
la largeur de l’intervalle et qu’il n’est pas possible de donner un intervalle certain 
autre que ® dans sa totalité. 


Note 7.4 S'il s’agit d'estimer une fonction A(4) bijective, par exemple stricte- 
ment croissante, du paramètre 6, il suffit de prendre l'intervalle [h(t1), h(t2)]. 


Nous introduisons maintenant la méthode de la fonction pivot, qui permet 
de résoudre la plupart des cas classiques. 


7.2 Méthode de la fonction pivot 


Définition 7.3 Soit le contexte de la définition 7.1. 
Une fonction g(X1, X2,-::, Xh:0) est appelée fonction pivot si : 
1. la loi de g(X1, X2,--- , Xh30) est connue et ne dépend pas de 0, 


2. pour tous réels u1 et u2 tels que u1 < u2 et tout (x1,%2,:-: ,2») € R", la 
double inégalité 
ui < (T1, 72," ,Tn:0) < U2 


peut se résoudre (ou «pivoter») en 0 selon : 


tft, do, sis Th) < 0 < ta(di, do, es Th): 
Dans l’exemple 7.1, la variable aléatoire XL était une fonction pivot car 
P 1/yn 


pour toute valeur Z on peut résoudre l'inégalité : 


LL 
par ve 


en : 
= u2 u] 


x LR T= = 
ya °F Vi 
Notons que dans cette définition, on peut évidemment se restreindre aux 
valeurs (%1,%2,--- ,%,) appartenant à l’ensemble des réalisations possibles pour 
0 quelconque. Remarquons aussi qu’une fonction pivot n’est pas une statistique 
car elle contient le paramètre inconnu 6. 


Proposition 7.1 L'existence d’une fonction pivot assure une procédure d’in- 
tervalle de confiance de niveau donné quelconque. 


En effet, il suffit de choisir, sur la loi connue, des quantiles u1 et u2 tels 
que : 
P(u gi, Xe À 550) < u)) 2 7 


puis de faire « pivoter », pour encadrer 0. C’est ce qui a été effectué dans 
l’exemple 7.1. Donnons un autre exemple. 
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Exemple 7.2 Soit X1,X2,---,X, un échantillon de loi mère €(À). Nous avons 
vu en section 4.2.3 que T = 37°, X; suit une loi l'(n, À) et il n’est pas inutile 
de rappeler que cette statistique est exhaustive minimale. Sa densité est : 


fr (€) = a (sit > 0). 


Considérons la variable aléatoire ÀT et déterminons sa fonction de densité fxr.. 
Avec des notations évidentes on a : 


d t 
Exr(t) = POT <t) = P(T< ) = Fr). 
D'où, par dérivation : 


fr) = 


qui est la densité de la loi l(n,1) et ne dépend pas de À. De toute évidence, 
la double inégalité u, < AT < u2 peut «pivoter» pour isoler le paramètre 
À selon # < À < 7. Pour obtenir une procédure d'intervalle de confiance 
de niveau, disons, 0,95 il suffit de choisir pour u1 et u2 respectivement, les 
quantiles d'ordre 0,025 et 0,975 de la loi l'(n,1), c’est-à-dire les valeurs u1 et 
u2 telles que : 


Uu1 + Le 1 
Î u- le qu = 0, 05 et jL —— ut" te "du TD 0,975 
o m1) o (n-—1)! 


que l’on doit lire dans les tables de la fonction de répartition des lois gamma ou 
déterminer via une fonction ad hoc d’un logiciel statistique (souvent appelée 
fonction gamma inverse). On a alors : 


ICo,95(À) = | 


U] U2 | 
ne Xi NE Æ|? 


Nous verrons d’autres illustrations de fonctions pivots dans la section 7.4 
qui concerne les IC classiques. 


En dehors de ces cas classiques, il n’existera généralement pas de fonction 
pivot et il est nécessaire d’avoir une procédure de type universel pour couvrir 
les situations les plus variées, et même complexes. La méthode qui a la portée 
la plus générale est la méthode asymptotique qui fournit une approximation 
d’'IC d’une façon que nous allons préciser. 
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7.3 Méthode asymptotique 


Plaçons-nous dans le cas le plus général et supposons qu’il existe un esti- 
mateur 7, de 0 tel que : 


Th — 0 £ 


sn(0) 0 


N(0;1) 


où 5, (0) est une fonction appropriée de 8 : le plus souvent l’écart-type de T, ou 


une fonction équivalente quand n — co. Si la fonction ET pivote pour isoler 

0 on a la procédure d’IC approchée recherchée. Sinon, T} étant convergente 

pour 0, moyennant la continuité de la fonction s, (évidemment quel que soit 
Tn—0 


n), (Ty Convergera aussi en loi vers la loi normale centrée-réduite. Alors le 


pivotement est immédiat pour donner l’IC approximatif : 
1C,(0) = [tn — Zita Sn(fn) tn + Z143 Sn(ên)] 
où t, est la réalisation de 7. 


Cet intervalle est approximatif dans le sens où la procédure correspondante 
ne garantit pas exactement le niveau 7 quel que soit 0 pour n fini. Bien qu’il soit 
difficile de donner un seuil pour n à partir duquel on sera suffisamment proche 
du niveau + (disons à 107? près), on se référera à la règle n > 30 indiquée 
pour le théorème central limite. En effet il est clair que c’est ce théorème qui 
est susceptible de nous fournir un estimateur approprié comme dans l’exemple 
ci-après. 


Exemple 7.3 (IC pour À de P(À)) Nous avons vu (section 6.6.3) que X,, 
la moyenne de l’échantillon, est un estimateur efficace pour À du fait que pour 
cette famille de lois on a d(x) = x. Cette statistique est donc particulièrement 
intéressante pour envisager un IC pour À. Comme 4/X est l’écart-type de la loi, 
le théorème central limite indique que : 


Choisissant un niveau de confiance +, on à : 


Xn — À 
P( Zity < Zits) © 7. 
2 "E 2 


La double inégalité se ramène à une inégalité du second degré en À que l’on 
peut résoudre : 
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Or : 


D gr . . Xntiss Tir 
A= |2X, += —A4X?=4 THE >0 
n n n 


et le polynôme du second degré en À est négatif entre les racines, d’où la 
procédure d’IC approximatif : 


= Pia Anis Ain . Zita Anis 24 
P|Xx, HT <A< Xh 2 - ee 
F 2n n An? Es 2 n " An? à 


En négligeant sous la racine le terme en _ par rapport à celui en l, puis 


celui en 1 par rapport à celui en No on obtient finalement : 


; te. , 
P(r as — << Xy + its Far 
2 nm 2 nm 


Cet intervalle est précisément celui que l’on aurait obtenu en substituant 
à À l’estimateur X, dans l’expression de la variance à (conformément à la 
substitution s,(T,) pour s,(0) évoquée plus haut). On voit donc que cette 
substitution est une approximation du second ordre par rapport au résultat 
du théorème central limite. Généralement, il en sera ainsi et nous verrons un 
cas similaire pour l'IC classique sur le paramètre p d’une loi de Bernoulli (voir 
section 7.4.5). Pour conclure, retenons la formule suivante pour le paramètre À 


de la loi de Poisson : 


ICo,95(À) = Z + 1,96 


Sa 


qui, en règle pratique, donne une approximation satisfaisante dès que l’on a 
Sy > 30. Pour ÿ;_,; plus petit on applique la procédure qui sera 
développée au cours de l’exemple 7.6 via la méthode des quantiles. = 


La question qui semble se poser pour la mise en œuvre de la méthode 
asymptotique est celle de l’existence d’un estimateur du type de 7}. En fait, 
l’estimateur du maximum de vraisemblance, moyennant certaines condi- 
tions de régularité, fera l’affaire. Nous avons même vu (voir proposition 6.11) 
qu’il est un estimateur BAN (best asymptotically normal) et l’on peut montrer 
qu’il fournira des IC qui auront une certaine optimalité asymptotique, notam- 
ment en termes de largeur d'intervalle. Dans les notations de la section 6.7, 
nous avons (proposition 6.11) : 


gMV _g 
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Mis à part quelques cas simples, l'expression 7(0) de l'information de Fisher sera 
telle qu’elle ne permettra pas le pivotement. On lui substituera donc 1(0MV) 


pour obtenir finalement la formule générale suivante (où gMv désigne cette fois 
l'estimation du MV) : 


Z1+7% À Z1+7% 
gMv l 


RE DE RTS | 


Exemple 7.4 (Paramètre 0 de la loi de Pareto avec a connu) 
Il a été indiqué (section 6.7.3) que l'EMV pour 4 est 0MV = [15% m(&)t. 


Par ailleurs, on peut montrer (voir exercices du chapitre 6) que la borne de 


IC:,(8) = |8MV 


2 
Cramer-Rao est =. On a donc : 


gMv _ 


Cette expression permet le pivotement sans qu’il soit nécessaire de recourir 
à la substitution de Z(0MV) pour 7(0). En effet (en prenant + = 0,95 pour 
simplifier) : 


MV 0 
P | —1,96 < Sr 1,96 | = 0,95 
a 
gmMv MV 
& P F T:56 <0< T:56 0,95. 
Vn Vn 
En utilisant l’approximation [1 + al = 1 a qui néglige le terme en 
1 par rapport au terme en =, et en faisant de même pour [1 — al on à: 


1,96 ; 1,96 
: de OVAL A), Ne 0,05, 
<a a+) 


P (eva 


Une fois encore, cette expression est celle que l’on aurait obtenue en substi- 


tuant d'emblée 2 à 2 pour la variance asymptotique de ÿMV, [| 


La construction d’un IC à partir de l’'EMV se heurte dans les situations 
non standard à une difficulté pratique, à savoir la détermination de l’infor- 
mation de Fisher 7(0). Nous indiquons la façon dont les logiciels statistiques 
qui fournissent des IC sur les paramètres des divers modèles qu'ils proposent, 
contournent ce problème y compris lorsque les observations ne sont pas i.i.d. 
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(par exemple : modèles de régression, modèles de séries chronologiques), la seule 
exigence étant de connaître la forme de la densité conjointe f(41,%2,-:- ,Æn; 0). 
Nous verrons une situation de ce type en régression logistique au chapitre 11. 


Résolution numérique pour l’IC fondé sur l’'EMV 


Reprenons l'expression de 7(0) donnée en section 6.6.3. Sous certaines condi- 
tions de régularité pour la densité f(x; 0) on a : 


2 


fo) Rs E In f(X: | | 


Il est clair que le calcul d’une telle espérance mathématique peut être inextri- 
cable. Toutefois, en vertu de la loi des grands nombres, la v.a. 


1 ® 
—— — In f(X;;:0 
né 002 ( LA] ) 
i=1 
converge en probabilité (voire même presque sûrement quand la variance de 
27 In f(X;0) existe) vers (8) quand n — co. Ceci reste en fait valable en 


remplaçant 0 par ÿM V'et on estimera donc 7(4) par l'expression ci-dessus cal- 


culée au point 0 — ÿm V'et pour les réalisations x; des X;, soit : 
1 


Hf(n000") T = 30 MELON), 


Les 
no 

i=1 
où In L(OMV ) est la log-vraisemblance de 4 en #MV, Numériquement, ceci peut 
être accompli de façon précise sans calculer explicitement la dérivée seconde de 
la log-vraisemblance, en donnant de très faibles variations à 0 autour de 0MV. 


Le principe de calcul approché se généralise aisément à un paramètre de 
dimension k > 1 à partir de la matrice d’information de Fisher. L'élément (4, 5) 
de cette matrice est estimé par : 


LU MV 
n 00,00, PEUR 
où 0; et 0; sont, respectivement, la 5-ème et la j-ème composante du vecteur 
des paramètres. On obtient des IC sur chacune des composantes isolément en 
considérant les dérivées secondes par rapport à chaque composante. On verra 
plus loin la notion de région de confiance dans R pour une prise en compte 
simultanée de toutes les composantes. 


Nous abordons maintenant la construction d’IC dans les situations les plus 
courantes. Elle reposera soit sur la méthode du pivot, soit sur l'approche asymp- 
totique. 
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7.4 Construction des IC classiques 


Sous le terme de « classique » nous présentons les cas de la moyenne et 
de la variance d’une loi mère gaussienne et le cas du paramètre p d’une loi de 
Bernoulli. Nous verrons que le résultat pour la moyenne d’une gaussienne peut 
servir d’approximation pour une loi mère quelconque. Quant au cas de Bernoulli 
il est d’une grande importance pratique puisqu'il traite des « fourchettes » 
d'estimation de proportions dans les sondages. Nous rencontrerons également 
des situations nouvelles de comparaisons entre deux lois (ou, en pratique, deux 
populations) distinctes. Les résultats qui suivent exploitent ceux établis au 
chapitre 5 sur les distributions d’échantillonnage. Pour simplifier les écritures, 
nous prendrons, comme c’est l’usage, des IC de niveau 7 —0,95 faisant donc 
intervenir les quantiles d’ordres 0,025 et 0,975, le passage à une autre valeur 
de 7 étant évident. 


Nous proposons dans la section des exercices quelques « exercices appliqués » 
permettant d'illustrer l’intérêt des intervalles de confiance. 


7.4.1 IC pour la moyenne d’une loi W{u, 0°) 


Nous abordons d'emblée le cas où (y, a?) est un paramètre de dimension 2 
inconnu, mais nous nous intéresserons ici uniquement à un encadrement pour 
u indépendamment de o?. Nous reviendrons ensuite brièvement sur le cas plus 
simple, mais peu réaliste, où a? est supposé connu. Rappelons le résultat du 
théorème 5.2 : 


X y 
5 ns t(n —1). 


Vn 
Cette v.a. est de toute évidence une fonction pivot pour y et nous obte- 


nons un IC comme suit, les développements étant de même nature que dans 
l'exemple 7.1 : 


n—1 n—1 
pme SE <5s | = 0,95 


7 
est la notation adoptée pour le quantile d'ordre a de la loi de Student 
à n — 1 d.d.l. (degrés de liberté) dont nous rappelons que, comme la loi de 
Gauss, elle est symétrique par rapport à 0. Il s’ensuit que : 


où #71) 


> n n-0 © 
P(£- HE eu < À +) = 005 


et le résultat très classique : 


IChos(u) = L ni + 
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Notons que les quantiles des lois de Student sont donnés dans toutes les 
tables statistiques usuelles. La largeur de cet IC, dont on peut montrer qu’elle 
est minimale par rapport à d’autres éventuelles procédures, dépend d’une part 
de la taille d’échantillon et d’autre part de la dispersion même de la loi mère (ou, 
en pratique, de la variable étudiée dans la population) à travers l’estimation s de 
son écart-type ©. Plus la population est homogène et plus la taille d’échantillon 
est élevée, plus l’estimation sera précise. 


Les praticiens utilisent cette formule sans se soucier de la « normalité » de 
la loi mère. Ceci est, de fait, justifié d’une part grâce au théorème central 
limite qui assure, avec des conditions généralement réalistes, que NE soit 
à peu près gaussien dès lors que n est assez grand (rappelons que n > 30 
est, en pratique, bien suffisant) et, d’autre part, grâce à la convergence de la 
variance d’échantillon S2 en tant qu’estimateur de a?. En réalité le deuxième 
point n’est pas si clair. En effet, si cette convergence est opérante pour de 
grands échantillons, disons plus d’une centaine d’observations (auquel cas on 
applique simplement une approximation par la loi de Gauss), on peut se poser 
la question pour de plus petits échantillons dans la mesure où, pour une loi 

N (n—1)5? : A er : à 
mère quelconque, 3 peut suivre une loi qui s’écarte sensiblement de la loi 
X?(n — 1) théoriquement requise (voir théorème 5.1). Néanmoins on a montré 
que l’approximation de Student reste relativement satisfaisante. 


Ceci explique le caractère quasi universel de la formule pour 1C6,95(), 
dont on peut dire qu’elle fournit un IC approché dans des situations non pa- 
ramétriques puisqu'elle est valable pour une grande variété de lois (pour le 
théorème central limite, il suffit que la variance existe, ce qui est aussi suf- 
fisant pour la convergence de $2, selon la proposition 6.1). Cependant, dans 
les cas paramétriques simples, les formules d’IC établies en tenant compte des 
spécificités de la famille considérée seront plus précises. Ainsi, s’il s’agit d’esti- 
mer la moyenne À d’une loi de Poisson, le résultat obtenu dans l’exemple 7.3 
est préférable car il intègre le fait que la variance de la loi est À et qu’elle n’a 
pas besoin d’être estimée indépendamment par la variance de l'échantillon. 


Revenons maintenant sur la situation où o? est connu qui, bien que pré- 
sentée dans tous les ouvrages, est un cas d’école car rares sont les situations 
pratiques de ce type. Elles ne sont toutefois pas inexistantes. Aïnsi certaines 
machines-outils devant usiner des pièces selon une certaine cote provoquent, 
lorsqu'elles se dérèglent, un déplacement de la valeur moyenne mais conservent 
le même aléa, c’est-à-dire la même variance. 


En fait, le cas où o? est connu a été traité dans l'exemple 7.1 où, par 


commodité, on a supposé a? = 1. L’IC obtenu est donc : 


L (ox (°A 
ICo,95(u) = DA A e Vñ . 


Par contraste avec le précédent IC où o? est inconnu, les quantiles sont à 
lire sur la loi de Gauss du fait que a? n’a pas à être estimé. 


.Æ + 1,96 
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7.4.2 IC pour la variance o? d’une loi de Gauss 


Nous supposerons que x est également inconnu. Le cas d’école où y est 
connu est proposé en exercice et s’opère par une voie analogue. Reprenons le 
résultat du théorème 5.1 : 


(nm —1)5? xs x?(n 1); 


2 (n—1 (n —1)5? 2 (n—1 
P (a De a en ne = 0,95 


où x2 (771) dénote le quantile d'ordre a de la loi y2(n — 1). Ces quantiles se 


trouvent dans les tables statistiques ordinaires. On peut directement isoler a? 
pour obtenir : 


2 (n—1) 
X0,975 X0,025 


PER ce < LD) = 0,95 


et 


(Rs? (n—1)s | 


ICo,95 (0°) on | 2(n—1) ? 2 (n—1) 
X0,975 X0,025 


Cet intervalle de confiance est peu robuste vis-à-vis de l'hypothèse gaus- 
sienne, contrairement à celui sur u. On ne peut donc l'utiliser dans des situa- 
tions où la loi mère diffère d’une loi normale. Ceci est vrai même pour une 
grande taille d’échantillon car on montre (voir section 8.2.2) que la loi asymp- 
totique de S? (plus précisément de 4/n($? — 2?) ) dépend de la loi mère. 


Note 7.5 Suivant la note 7.4, on peut déduire un IC pour l’écart-type © de 
celui sur la variance : 


Vin-1)s V{(n-1)s 
DRE) 


Au passage, on peut comparer la variabilité de l’écart-type empirique S et 
de la moyenne empirique X, pour une loi de Gauss tout du moins. En première 
approximation, en appliquant la formule pour une fonction d’une v.a. établie en 
section 2.6, V(S) = LL V(S?) = x alors que V(X) — ee La fluctuation 
de $ est plus faible, ce qui se retrouve au niveau des précisions des IC (voir 
exercices). 


ICo,5(o) = 
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7.4.8 IC sur la différence des moyennes de deux lois de 
Gauss 


Nous considérons ici deux lois mères (en pratique, souvent, deux popula- 
tions) et souhaitons construire un IC sur la différence de leurs moyennes. Citons 
comme exemples l'écart entre la taille moyenne des filles et des garçons à l’âge de 
douze ans, l’écart de revenu moyen des actifs entre telle et telle région. Pour cela 
on dispose de deux échantillons aléatoires indépendants pris dans chaque 
population (le fait de prendre une sœur et un frère pour l’exemple de la taille 
ne respecterait pas cette hypothèse d'indépendance des deux échantillons). 


La procédure classique que nous allons développer suppose que les deux 
lois ont même variance 0°. Soit un échantillon de taille n1 issu de la loi 
N{1,0?) et un échantillon, indépendant du premier, de taille n2, issu de 
la loi N(y,02). Soit X1 et S?, moyenne et variance empiriques du premier 
échantillon et de même X2 et S2 pour le deuxième échantillon. On à : 


2 


= o 
Xi Nu, —) 
ni 
ea o? 
Xa Nu, —) 
n2 
et 
2, l L 
X1 — Xo © Nu — po, she) 
1 n2 
(X1 — X2) — (1 — La) N'(0:1) 
1 1 ’ 
Ti = = 
ni n2 


Le problème qui se pose est celui de l’estimation de & que l’on effectue, en 
2: 2 
fait, via o?. Sachant que GS re X?(n1 — 1) et 2-08 re X?(n2 — 1), 
l'indépendance des deux échantillons entraîne (voir proposition 5.7) que : 


(ni — Lys + (no = 1)S$ 
2 


o  XŸ(n1 + no — 2). 


En faisant le rapport de la v.a. X1 — X2 centrée-réduite à la racine carrée de 
la v.a. ci-dessus divisée par ses degrés de liberté, et en posant : 


Ni +2 — 2 


ul 


2 
Sy = 


on obtient : , L 
(Xi — X2) — (wi — wo) 
1 1 
+ 


re t(n1 + n2 — 2) 
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(voir les développements similaires du théorème 5.2). La fonction ci-dessus est 
une fonction pivot qui aboutit immédiatement à : 


TCoos(u1 — 2) = (&1 — T2) + io 274 SpA + — 


Bis (na — 1)s? + (n2 — 1)55 


Po Ni + N2 — 2 


est la variance empirique pondérée en fonction des tailles d’échantillon respec- 
tives. 


Qu'en est-il de la condition très restrictive d'égalité des variances ? En fait, 
on à pu montrer que celle-ci n’est pas si cruciale si les tailles d'échantillons 
n1 et n2 diffèrent peu. Dans ce cas un facteur 2 pour le rapport des variances 
reste acceptable. En revanche si n1 et n2 diffèrent substantiellement la formule 
ci-dessus s'applique mal quand les variances ne sont pas proches. Alors on 
peut effectuer les mêmes développements que précédemment en introduisant 
les variances respectives des deux lois a? et o? pour obtenir : 


(Æ1 — X2) — (11 — 12) T 


N(0;1) 
2 2 
Ho 
n1 no 


et, si les tailles d'échantillons sont élevées, disons au-delà d’une centaine, conser- 
ver une approximation raisonnable en substituant à o? et a3 leurs estimations 
s? et s3, d’où : 


TCo,o5(u1 — 2) © (%1 — T2) + 1,96 


On remarquera que si n1 = n2 cette formule est identique à celle du cas 
où a? = a? (mis à part les quantiles d'ordre 0,975 qui seront cependant pra- 
tiquement identiques pour les grands échantillons). D’autres formules d’ap- 
proximation plus précises ont été développées, mais elles donnent des résultats 
numériques proches de ceux obtenus avec l’hypothèse d'égalité des variances ce 


qui encourage peu leur utilisation par les praticiens. 


Indiquons qu’il existe un usage assez répandu consistant à effectuer au 
préalable un test de l’hypothèse d'égalité des variances comme proposé en sec- 
tion 9.7.4. Même si l’on peut admettre que cela a l’avantage de constituer un 
garde-fou, cette procédure ne fournit pas une garantie suffisante quant à l’ap- 
plicabilité de la formule classique en cas d'acceptation de l’hypothèse par le 
test. 


Quant à l’usage de celle-ci en dehors des conditions de «knormalité» des deux 
lois, il est acceptable pour les mêmes raisons que celles exposées dans le cas 
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d’une seule loi (section 7.4.1). En résumé, le point critique est une différence 
trop sensible des dispersions des deux lois. 


Cas des échantillons appariés 


Dans la mesure où cela est possible, on gagnera en précision (i.e. en largeur 
d'intervalle) en associant les deux échantillons par paires ayant les mêmes va- 
leurs sur une ou plusieurs variables auxiliaires, dites variables de contrôle. Le 
gain sera d'autant plus important que ces variables auxiliaires seront liées à 
la variable étudiée. S'il s’agit, par exemple, de comparer les effets de deux 
molécules sur la réduction de l'hypertension on mettra en œuvre un plan 
d'expérience associant des paires d'individus de même âge, même sexe, même 
niveau d’hypertension initial. Souvent il s’agit de mesures répétées sur le même 
échantillon, l’appariement étant alors parfait. 


Les développements précédents ne sont plus possibles du fait que les deux 
échantillons ne sont plus indépendants. On contourne ce problème en raisonnant 
sur la v.a. D «différence entre individus appariés» pour se ramener au cas d’une 
seule loi. 


Ceci est justifié du fait que E(D) = E(X1 — X2) = jui — jo. En notant d 
la moyenne des différences entre les n paires observées et s4 l’écart-type de ces 
différences, on a : 

L (n—1) Sd 


TCo,95 (ui — Lo) = dE 10,975 VA 


Les considérations de «robustesse» de la formule par rapport à l'hypothèse 
de normalité vues en section 7.4.1 restent valables. 


7.4.4 IC sur le rapport des variances de deux lois de 
Gauss 


2 
On considère le rapport % pour les lois W{y1,01) et N(u2,02). Comme : 
2 


__1)82 — 1)52 
ST) 
4 02 


on à, par application des résultats de la section 5.5 : 


Si/oi 
55/03 


me Fr —1,n2 —1). 


nel 52/0? AUS 
P(ru Fe De Re : !) = 0,95, 
2 2 
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soit finalement après pivotement et compte tenu du fait (voir proposition 5.11) 
que F8 = 1/F), 


02 82 


2 2 2 
O1, _ [ST pno—lni-1) ST pn2—1lni—1) 
ICo,95(—5) un 2 F0,025 ? Le" ,975 
2 
Comme pour la procédure relative à une variance (section 7.4.2), cette for- 
mule n’est pas robuste lorsque les lois s’écartent de lois gaussiennes. Son usage 


est donc très limité. 


7.4.5 IC sur le paramètre p d’une loi de Bernoulli 


Rappelons, pour les applications, que p peut être la probabilité à estimer 
pour l'occurrence d’un événement (succès). Dans le cas d’un sondage aléatoire 
simple sans remise dans une grande population (taux de sondage inférieur 
à 0,10, voir section 3.7), p est la proportion d'individus possédant un cer- 
tain caractère dans cette population. C’est pourquoi on parle généralement 
d'intervalle de confiance pour une proportion. Les enquêtes estimant 
pour l'essentiel des proportions (ou pourcentages), les résultats qui suivent 
vont fournir les «fourchettes» de précision des sondages. 


La statistique sur laquelle se fondent les résultats est S$, le nombre total de 
succès parmi les n répétitions dont la loi exacte est B(n, p). C’est une statistique 
exhaustive minimale pour le paramètre p de la loi mère de Bernoulli. Comme 
c’est le plus souvent le cas pour des distributions discrètes, on ne peut mettre 
en évidence une fonction pivot. Pour obtenir des IC exacts on doit recourir 
à la méthode des quantiles exposée en section 7.5. Cette méthode préside à 
l'élaboration d’abaques et de tables ainsi qu'aux résultats fournis par les logi- 
ciels. 


Pour l’heure nous présentons le résultat classique obtenu par l’approche 
asymptotique qui s'applique dans la plupart des cas du fait des tailles d’échan- 
tillons courantes. Suite au théorème central limite nous avons vu (section 5.8.3) 
que la loi B(n, p) de S,, peut être approchée convenablement par la loi de Gauss 
N(np,np(1 — p)) pourvu que np > 5 et n(1 — p) > 5. D'où : 

Sa — np 


ee ——— 5. NO) 
np(1 = p) approx 


qui met en évidence une v.a. de loi asymptotiquement indépendante de p et 
ainsi, en négligeant la correction de continuité (voir section 5.8.3) : 


Sn — np 
Vnp(1l — p) 


Pour ce qui concerne le pivotement nous sommes dans une situation ana- 
logue à celle rencontrée pour le paramètre À de la loi de Poisson de l’exemple 7.8, 


P | 1,96 < & 106) = 0,95. 
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à savoir que la double inégalité se ramène à une inégalité du second degré en p 
que l’on peut résoudre : 


Donnons la solution finale pour VIC, en fonction de la fréquence relative 
observée p, réalisation de P, = S,/n : 


x (1,96)? : " 
PER ne 1 (96) (1:96) 
14 G967  j, (56) = (1 — ) + A2 


qui, bien que développée dans divers ouvrages, n’est jamais utilisée. 


En effet, les conditions de validité de l’approximation gaussienne np > 5 et 
n(1—p) > 5 n'étant pas vérifiables puisque p est inconnu, on leur substitue des 
conditions reposant sur p, lesquelles doivent être plus restrictives du fait que ÿ 
est une estimation de p. Une règle simple consiste à vérifier que np(1 — p) > 12. 
Comme p(1 — ÿ) reste inférieur ou égal à 1/4, cette règle implique 4/n < 
1/12. Alors on peut négliger le terme ie devant 1, donc devant ÿ et devant 
Aÿ(1 — ), pour ne conserver finalement que la formule très classique : 


AS 
TCo,05(p) © À + 196,/É02, 


Comme pour l'exemple 7.3 on obtient directement cette formule en estimant 
la variance np(1 — p) par nP;(1 — P,), car : 


b. 
phone PR 76 LA DS 


nP,(1- À) 


entraîne : 


. P,(1- P, . PP; 
P | P, —1,961/ ) <p< B, + 1964 EU Fn) = 0,95. 
n nm 


Cette approche par le théorème central limite coïncide avec l’approche par 
VEMV du fait que J(p) — pour la loi de Bernoulli. Notons que la pré- 
(16) 


nm ? 


ls 
p(i-p) 


cision absolue (terme consacré en méthodologie des sondages) : 1,96 


diminue quand ÿ se rapproche de 0 (n étant fixé), mais que la précision relative : 


1,96 /5(1 5) _ 1,96 /1-$ 
vn n) vn A 


tend vers l'infini. 
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Exemple 7.5 Soit un sondage auprès d’un échantillon de 1 000 personnes que 
l’on supposera avoir été sélectionnées au hasard dans la population française 
des personnes âgées de 18 ans et plus. À la question «Avez-vous une activité 
sportive au moins une fois par semaine ?» 415 personnes ont répondu affirma- 
tivement. Le pourcentage réel dans la population est donc estimé par : 


(0,415)(0, 585) 


415 +1 
0,415 + 1,96 000 : 
soit 0,415+0,031. 
La précision relative est 03 —0,074 ou 7,4 %. Comme la fonction (1 — p) 


reste entre 0,24 et 0,25 pour ÿ € [0,40 ; 0,60] on peut retenir que la précision d’un 
sondage auprès de 1 000 personnes est (au mieux, étant donné les imperfections 
pratiques) de 0,03 soit, en pourcentage, de 3% pour une proportion située entre 
40% et 60%. = 


Un problème classique est celui du calcul de la taille d’échantillon pour 
atteindre une précision absolue donnée et nous prendrons 1% (ou 0,01) pour 
exemple. Si l’on n’a aucune idée de la valeur de p on peut utiliser le fait que 
(1 — 5) < 4, le maximum étant atteint pour ÿ — à, et la précision sera au pire 


de 1,961/ L. Donc, en prenant n tel que : 


on est sûr d'atteindre la précision souhaitée. Si l’on a une connaissance a priori 
sur l’ensemble des valeurs plausibles de p (et donc, par assimilation, sur ÿ) 
on effectue le même calcul en remplaçant ÿ(1 — 5) par son maximum sur cet 
ensemble. 


7.4.6 IC sur la différence des paramètres de deux lois de 
Bernoulli 


Soient les deux lois de Bernoulli B(p1) et B(p2) et deux échantillons indé- 
pendants issus respectivement de celles-ci, de tailles n1 et n2. On s'intéresse à 
un IC sur p1 — p2. Les applications sont fréquentes dans les sondages pour com- 
parer les proportions de deux sous-populations dans le choix d’une modalité de 
réponse à une question donnée. On a donc aussi coutume de parler d’inter- 
valles de confiance sur la différence de deux proportions . Pour res- 
pecter l’hypothèse d'indépendance des échantillons, les deux sous-populations 
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doivent être totalement distinctes de façon à donner des sous-échantillons eux- 
mêmes totalement distincts. Dans ce qui suit, n1 et n2 sont supposées fixées, 
ce qui n’est pas forcément le cas dans cet exemple de sondage où seule la 
taille globale de l'échantillon n est fixée et les tailles de sous-échantillons sont 
le résultat du hasard, mais ceci n’a pas vraiment d'incidence sur les résultats 
établis ci-après (voir à ce propos la note 9.6). 


Nous ne donnerons qu’un développement asymptotique qui suppose que les 
quatre expressions n1p1, N1(1—p1), R2p2 et n2(1 —p2) soient toutes supérieures 
ou égales à 5. Les paramètres p1 et p2 étant inconnus on peut utiliser en sub- 
stitution les conditions nf1(1 — ÿ1) > 12 et npa(l — ÿ2) > 12. 


Soit Ê, et Po les v.a. «proportions de succès» respectives de chaque échan- 
tillon. On a alors : 


À, as N (n. #00) et Po a N(n, 20), 


approx ni approx na 


puis : 


Pi-P N' (mn pa, PA) po) 


approx ni n2 


Les variances s’additionnent en raison de l’indépendance des deux échantillons 
et donc des statistiques P;, et P2 En estimant les variances par 
Pi(1 — Pi)/n1 et P2(1 — P2)/n2, puis en centrant et réduisant, on a : 


(À = Ps) — (p1 — p2) 
Es re Pet Pe) 


P | -1,96 < < 1,96 | 0,95, 


ce qui pivote immédiatement pour isoler p1 —p2 et donne finalement la formule : 


a : pi(i — D Pa(il — D: 
IChos (pi — po) L Gi — ÿ>) + 00 Pi) + P2( Pa) 
n1 n2 


On trouvera dans les exercices des applications illustrant l’intérêt de cette 
formule. 


Signalons, sans développer, qu’il existe une procédure exacte pour les petits 
échantillons fondée sur la procédure exacte de test correspondante (voir section 
9.7.6). Il existe de même une procédure pour le cas d'échantillons appariés. 


7.5 IC par la méthode des quantiles 


Nous présentons cette méthode, même si elle n’est pas d’un usage très 
répandu, parce qu’elle est à la base des tables et abaques donnant des IC pour 
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des petits échantillons, notamment pour la loi de Bernoulli et pour la loi de 
Poisson. Nous exposerons la démarche dans le cas continu qui est plus simple 
et indiquerons son adaptation au cas discret. 


La méthode exige que l’on dispose d’un estimateur T de 8 dont l’expression 
de la densité fr(t; 0) est connue. Il sera bien sûr avantageux que cet estimateur 
soit de bonne qualité. Il est également nécessaire que la fonction de répartition 
Fr(t; 0) soit, pour t fixé et quelconque, une fonction strictement monotone de 
0 et nous supposerons qu’elle soit, par exemple, strictement décroissante. Cela 
signifie que le graphe de la densité se déplace vers la droite quand 0 augmente. 


Définissons la fonction t5,025(0) qui à chaque valeur de # associe le quantile 
d'ordre 0,025 de la loi correspondante. Cette fonction est strictement croissante. 
En effet, pour #’ > 6,on a : 


Fr(to,025(@); 0) = 0,025 > Fr(to,025(0); 0") 


et to,025(0) est donc un quantile d'ordre inférieur à 0,025 pour la loi corres- 
pondant à 8’. Aïnsi £0,025(0’), le quantile d’ordre 0,025 de cette dernière, est 
supérieur à t0,025(0). Définissons de même la fonction t0,975(0) qui à chaque 
valeur de 4 associe le quantile d’ordre 0,975 de la loi correspondante. Cette 
fonction est également strictement croissante. 


Ayant observé T = t, l'IC à 95% pour @ par la méthode des quantiles 
est [01,02] où 61 est tel que t0975(01) — t et 02 est tel que t0025(02) = t 
(voir la figure 7.1). En d’autres termes, 01 est la valeur dans © dont la loi 
correspondante a pour quantile d'ordre 0,975 la valeur observée t et de même 
pour 62 avec le quantile d'ordre 0,025. Les fonctions t6.975(0) et to.025(@) étant 
monotones on peut écrire 41 = dore (t) et 02 = to bos(t). 


Montrons qu’on a bien en amont une procédure d'intervalle de confiance de 
niveau 0,95. Considérons donc l'intervalle aléatoire oo (T), lon (T)]. On a: 


P) (5 675 (T) <0< t5 028 (T)) — P9 (t0,025 (0) <T < to,975(0)) 


ce qui, quel que soit 4, est, par définition des quantiles, égal à 0,95. L'application 
de cette procédure à la loi {{[0, 4] est proposée en exercice. 


Cas d’une loi discrète 


Intéressons-nous maintenant à une famille de lois discrètes pour laquelle 
la statistique T sera également discrète de fonction de probabilité pr(x:; 4) 
et de fonction de répartition Fr(t;0) strictement décroissante en 0 comme 
précédemment. De plus, pour simplifier les écritures nous supposerons que pour 
tout 0 l’ensemble des valeurs possibles de Test N. La procédure ci-dessus n’est 
plus possible car, en raison des sauts de discontinuité de Fr(t;0), on ne peut 
pas systématiquement associer à un 0 donné un quantile d'ordre exactement 
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to,975(0) 


to,025(0) 


Figure 7.1 - Intervalle de confiance par la méthode des quantiles. 


égal à 0,025 ou 0,975. En revanche, pr(t; 0) étant généralement continue en 6, 
pour t donné on peut toujours trouver Ÿ, tel que : 


t 
Fr(t 01) = Ÿpr(x;01) = 0,975 
æ=0 


et de même on peut trouver 62 tel que Fr(t; 02) = 0,025. 


En d’autres termes, pour tout t{ € N, Lyôre (t) et not) sont définis. En fait 
on montre (voir la note 7.6) que si l’on veut garantir pour tout 0 une probabilité 
au moins égale à 0,95 (on dit alors que la procédure est conservatrice) on 
doit prendre, ayant observé t, comme intervalle de confiance : 


TCo,95(0) = [01,02] 


1 
0 est tel que S_pr(x;61) = 0,975, 
æ=0 


t 
6 est tel que >, pr (x; 02) = 0,025. 
æ—=0 
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Exemple 7.6 Soit la famille des lois de Poisson et un échantillon de taille 7 
issu de la loi P(À) où À est inconnu. La statistique efficace (voir section 6.6.3) 
T = = X; suit une loi P(7À). Le graphe de la fonction de probabilité d’une 
loi de Poisson P(p) se déplaçant vers la droite quand p augmente, la fonc- 
tion de répartition Fr(t; p) doit être strictement décroissante en p pour t fixé. 
Montrons-le rigoureusement. On à : 


t 


e Pp" 
Er(tp) = D 


x! 


æ=0 
Ô - ze Pp® le -Ppe 
— Fr(t; p) = —-e P 
t 
L e-Ppt— 1 e—Pp? 
DR 
HA HA 
7. 
=-f 5 <o 
t! 


Supposons que l’on ait observé un total des observations Si ds = 18; 
L'IC pour À à 95% est donné par [, 2] où : 


17 


—7À1 7) 
À1 est tel que D: nu = 0,975, 
æ=0 ° 
18 7x 7) 
2 est tel que nn = 0,025. 
æ=0 : 


En recourant à un logiciel mathématique on trouve les solutions 711 —=10,7 et 

7)2 —28,4 soit finalement : 

10,7 28,4 
Fe CT 


IC,95 (À) = | | = [1,53 ; 4,06]. 


En exercice 7.4, on montrera comment on peut également résoudre les deux 
équations ci-dessus à l’aide d’une table des lois du Khi-deux. 


Comparons ce résultat avec celui de la formule asymptotique de l’exemple 7.3 : 


18 [18/7 
TCo,95(À) = 7 + 1,96 NT 


= [1,38 : 3,76]. 


Ce dernier est un peu plus étroit mais, étant approché, on ne peut garantir 
le niveau 0,95, à savoir que la probabilité de couverture de À par la méthode 
asymptotique n’est pas nécessairement égale ou supérieure à 0,95 pour tout 
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À. Si l’on avait trouvé ee x; = 50, la procédure conservatrice aurait donné 
l'intervalle [5,29 : 9,41] et la procédure asymptotique [5,16 ; 9,12]. De fait, les 
procédures se rapprochent quand À augmente. [| 


Dans les tables ou les logiciels statistiques élaborés on obtient directement 
les valeurs nÀ; et nÀ2 pour les valeurs de æ; de 0 à 50. Au-delà, on peut 
utiliser l’IC asymptotique. 


L'approche est identique pour un IC sur le paramètre p de la loi de 
Bernoulli pour laquelle statistique T est également la somme D, X; (le 
nombre total de succès), de loi B(n,p). Ici il faut tenir compte à la fois de 
la valeur de 7°, x; et de celle de n. C’est pourquoi les bornes de l’IC sont 
données sous forme d’abaques. Un exemple pour cette loi est proposé dans les 
exercices. 


Note 7.6 Montrons que la procédure adoptée pour le cas discret est conservatrice. 
Pour la valeur t observée, la borne 01 est telle que Fr(t — 1:01) = 0,975. Calculons 
pour un 0 quelconque P4(601(T) < 0). L'événement {41(T) < 0} est la partie À de N 
définie par À = {t ||d1(t) < 0} ou, puisque Fr(u; 0) est strictement décroissante en @ 
pour u fixé quelconque, de façon équivalente, 


A=ft|Fr(t-1:64) > ÆFrft—1:0)} = {t | Fr(t — 1:60) < 0,975}. 


À est donc constitué de toutes les valeurs de t de 0 à to où to est la première valeur 
telle que Fr(t,;0) > 0,975. D'où P(A) = Fr(to; 0) > 0,975. 


Par la même argumentation on peut montrer que P9(0 < 62(T)) > 0,975 pour 
tout 4, d'où Py(O1(T) < 8 < O2(T)) > 0,975 — 0,025 = 0,95. 


7.6 Approche bayésienne 


Dans cette approche nous avons vu en section 6.8 que le paramètre 0 avait 
un statut de variable aléatoire. A la notion d'intervalle de confiance de niveau 7 
on substitue la notion d'intervalle de probabilité 7 sur la loi a posteriori de 6. 
On encadrera donc simplement 0 avec les quantiles d’ordre 0,025 et 0,975 sur 
cette loi. 


Exemple 7.7 Reprenons l’exemple 6.23 de l’estimation du paramètre p d’une 
loi de Bernoulli avec une loi a priori U1[0,1]. La loi a posteriori est une loi 
Beta(s,n—s), où s est le nombre de succès, dont on peut trouver les quantiles 
dans les logiciels statistiques ou dans les tables. Supposons que pour n = 20 
répétitions on ait observé s — 8 succès. On lit dans une table les quantiles 
d'ordres 0,025 et 0,975 de la loi Beta(8; 12) : 0,22 et 0,62 respectivement. D'où 
l'intervalle de probabilité 0,95 pour p : [0,22 ; 0,62], à comparer avec l'intervalle 
[0,19 ; 0,64] indiqué par la méthode des quantiles dans l’exercice 7.5. E 
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7.7 Notions d’optimalité des IC 


Le premier critère d’optimalité est celui de largeur minimale des intervalles 
produits par la procédure. C’est d’ailleurs cette idée qui nous a conduit à choisir 
les quantiles de façon symétrique sur les extrémités de la distribution (soit les 
quantiles d’ordre = et + pour un IC de niveau 1 — +) dans la mesure 
où l’on obtient ainsi l’intervalle le plus court lorsque la distribution concernée 
est symétrique avec un seul mode (voir note 7.1). Nous définissons ci-après la 
notion de procédure de largeur minimale qui explicite le fait que l’IC doit être 
le plus court quelle que soit la réalisation (x1,æ2,:-: ,æn). 


Définition 7.4 Une procédure d’IC est dite de largeur minimale au niveau 


y si la largeur de son IC de niveau + : [t1(21,%2, + ,œn),ta(t1, 0, ,æn)|, 
est inférieure à celle de tout autre IC' dérivé d’une procédure de niveau égal ou 
supérieur à y, et ceci pour toute réalisation (x1,æ2,--: ,Æn). 


Il n’est évidemment pas aisé de dégager une telle procédure. Cela ne peut 
être fait que dans quelques cas simples mais, en général, une telle procédure 
n’existera pas. Un critère plus faible consiste à raisonner non pas pour toute 
réalisation, mais par rapport à l’espérance mathématique de la largeur de l’in- 
tervalle Ep[t2(X 1, X2,--- , Xp) — t1(X1, X2,-:- , X,)] quel que soit @. 


Cependant il existe un résultat asymptotique intéressant concernant la 
procédure de la section 7.3 reposant sur l’estimateur du maximum de vrai- 
semblance, résultat qui découle de l’optimalité asymptotique de celui-ci (voir 
proposition 6.11) : sous certaines conditions de régularité cette procédure four- 
nira une largeur d'intervalle qui, en espérance mathématique, tendra à être 
minimale pour n — co. 


Un autre critère d’optimalité est fourni par la notion de procédure uni- 
formément plus précise. Cette notion semblera ici quelque peu complexe mais 
elle deviendra plus claire lorsqu’aura été vue la notion duale de test uni- 
formément plus puissant au chapitre 9. 


Définition 7.5 Une procédure d’IC (TŸ,TS) est dite uniformément plus 
précise au niveau y qu’une procédure (T1,T2) si, étant toutes deux de niveau 
y, on a : 

Pa(Ti < 0 <T5) < Py(Ti < 0° <T) 


pour tout 0 € @ et pour tout 0 € © différent de 0, l'inégalité étant stricte pour 
au moins une valeur de 06. 


En d’autres termes, la procédure sera plus précise si la probabilité d’enca- 
drer une valeur #’ autre que la vraie valeur de à reste plus faible. L'objectif sera 
alors de rechercher, si elle existe, la procédure uniformément la plus précise (en 
anglais : uniformly most accurate où UMA) parmi l’ensemble des procédures 
de niveau égal (ou supérieur) à Y. 
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Enfin, on peut souhaiter d’une procédure que la largeur des IC fournis tende 
vers 0 quand la taille de l’échantillon s’accroît. 


Définition 7.6 Soit une procédure d’IC fondée pour n € N* sur l'intervalle 
aléatoire [Tin, Tan]. On dit que cette procédure est convergente en probabilité 
si la suîte {Ton — Tin} est telle que : 


Din = Tin —, 0. 


N— 00 


Étant donné que, pour chaque n, l'intervalle [T1 », T2] doit contenir la vraie 
valeur de 0 avec une forte probabilité, cet intervalle se réduira, à la limite, à 
cette valeur. Prenons par exemple l'intervalle : 


n—1 S 7 n—1 Sn 
Le pr 


VE + Lo,975 VA 


de la procédure classique pour la moyenne y de la loi (y, a?) vue en sec- 


tion 7.4.1. La largeur de l'intervalle est 20075 Comme S$? converge en 


probabilité vers o?, S, converge vers & et la largeur converge en probabilité 
vers 0. Par ailleurs X, converge vers y et cet intervalle se réduit à y à l'infini. 
Cette propriété de convergence est vérifiée pour tous les intervalles classiques 
que nous avons présentés. Elle est également vraie pour la procédure asymp- 
totique par l'EMV (voir section 7.3) dans la mesure où /(0MV) converge vers 
T(d0) où 60 est la vraie valeur de 6. 


7.8 Région de confiance pour un paramètre de 
dimension k > 1 


Pour simplifier nous prendrons k = 2, l'extension à k quelconque ne pré- 
sentant pas de difficultés particulières. Soit donc 4 — (01,02) le paramètre 
inconnu. Le problème est maintenant de déterminer une région aléatoire du 
plan qui contienne 4 avec une probabilité donnée quel que soit 6. 


Supposons d’abord que l’on sache construire séparément pour chaque com- 
posante une procédure d’IC de niveau 7 et soit Z1 et 2 les intervalles aléatoires 
correspondants. Pour tout 4 € @ € R?, on a alors : 


P5(0; € T;) = 7, 3 = 1,2, 


en admettant, également pour simplifier, que la probabilité + est exactement 
atteinte pour chaque 0. Considérons la région aléatoire constituée du rectangle 
TI; X LD. Pour 0 fixé on a : 


P)(0 EL x L) = P(61 € Li,60 € L) = P((61 € 1) N (@2 € L)) 
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qui sera toujours inférieur à + (sauf cas très particulier où l’un des événements 
implique l’autre). Généralement ces deux événements seront dépendants (du 
fait qu’ils reposent sur les mêmes observations) et il sera difficile de déterminer 
cette probabilité et donc, en prenant la valeur minimale quand 0 décrit ®, 
de connaître le niveau de confiance exact associé à la procédure consistant 
à prendre le rectangle au croisement de deux intervalles. Toutefois montrons 
que l’on peut donner une borne inférieure pour cette probabilité. Pour ce faire, 
posons & = 1-7 qui correspond au risque d’erreur de la procédure pour chaque 
composante. 


Soit F1 et E2 deux événements quelconques. Le complémentaire de E1 NE: 
est E1 U E2. Par ailleurs (voir section 1.1) : 


P(E1 U Es) = P(E:) + P(E2) — P(E1NE2) < P(E1) + PE). 
D'où l'inégalité générale : 
P(EiNE2) >1-—[PE:) + P(E)]. 
Appliquant celle-ci aux événements (01 € Z1) et (02 € 12) on en déduit : 
Pa((di € Dh)N(602 € L2)) > 1 — 2a. 


Ainsi, si l’on vise un niveau de confiance 1 — &, on peut le garantir en prenant 
pour chaque composante un niveau de confiance 1 — 5. (Pour le niveau courant 
de 0,95 on utilisera les IC de niveau 0,975 sur chaque composante). Pour une 
dimension k quelconque la méthode ci-dessus s'applique en prenant un niveau 


1 — © sur chaque composante. 
k q P 


Toutefois cette procédure peut s’avérer très conservatrice, au sens où le ni- 
veau réel sera supérieur et la région du plan sera donc plus vaste que nécessaire. 
Il n’est donc pas inutile de rechercher de façon directe une région de niveau 7. 
Nous illustrons une approche exacte pour le paramètre (y, a?) de la loi Wu, a?). 


Nous avons vu (proposition 5.3) que X et S? sont indépendants, ce qui 


AE (Æ-u) (n—1)5? ] nl Chi dernié 2 
implique que 77 et -—>— le sont également. Ces deux dernières v.a. étant, 


respectivement, de lois W(0;1) et x?(n — 1) on a, quel que soit (u, a?) : 


D. 
P (-224 me 22) — 0,975 
o/vn 


2 (n—1 (n — 1,5? 2 (n—1 
à (6 < Eu < Ar = 0,975 


et la probabilité que ces deux événements aient lieu simultanément est donc 
(0,975)? + 0,95. Ainsi une région de confiance de niveau 0,95 est obtenue en 
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prenant l’ensemble des points (u, 0?) du plan tels que : 


—9,94 < LE 2 
o 

2 (n—1) (n = LS 2 (n—1) 

0,0125 <<  Ç2  < X0,5875 

ou, de façon équivalente : 
2 nm 

(2,24)? 
(n —1)s? ) _(n—1)s 


Din) 9 2(n—1) 
X0,9875 X0,0125 


(u—5) >0 


La première inégalité correspond, en coordonnées (x, y), à l’intérieur de la pa- 
rabole y = a(x—x)? centrée sur Z où a vaut n/(2,24)?. La seconde découpe une 


tranche de cet intérieur entre les droites horizontales d'équations y = (* Ds 
X0,9875 
ety= . ie T comme indiqué sur la figure 7.2. 
X0,0125 
o? 
= (u—x?) 


(n—1)s? 


LDME D. 1) 


Xo 0125 
Région de confiance à 95% 
pour (u, 0°) 
(n—1)s? 
EE 


mi 


Figure 7.2 - Région de confiance pour le paramètre (y, o?) d’une loi de Gauss. 


X 


Signalons brièvement les éléments permettant d’obtenir des régions de confi- 
ance approximatives dans RF à partir des propriétés du vecteur estimateur du 
MV. Nous avons indiqué en fin de section 6.7.4 que /n(0"V — 4) converge en 
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loi vers une loi normale à k dimensions de vecteur des moyennes nul et de ma- 
trice des variances-covariances [1(0))]-!. Comme la matrice I(0) est symétrique 
et définie strictement positive il existe une matrice symétrique et définie stric- 
tement positive dont le carré est égal à I(9) et nous la désignons par I(4)2. 
Ceci est également applicable à [I(9)]-! et I(9)-2 est l'inverse de I(9)%, ie. 
(8)21(8)-2 = Ty, la matrice identité d'ordre k. 


Posons X = /n(OMV — 9) et soit Y — I(9)?X. Selon la proposition 3.13, 
(Y) = I(8)2E(X) = 0 et : 


Ainsi 4n1(4)2(0MV — 9) a une loi asymptotique W(0,14), c’est-à-dire que 
toutes les composantes de ce vecteur aléatoire tendent à être indépendantes et 
de loi W(0;1) (voir les développements analogues en section 3.9). Par consé- 
quent la somme des carrés de ses composantes, égale à : 


MEET 0] [Ur 0] = (GT — gt r(6) (EM — 6), 


suit approximativement une loi du khi-deux à k degrés de liberté. En rempla- 
çant, en deuxième approximation, I(0) par I(0WV) et en passant à la réalisation 
de 0MV, l'inéquation en 0 : 


n(OMV — ON T(OMY) (OV — 0) € XÉ05(E) 


définit l’intérieur d’un ellipsoïde centré sur 0 VV qui est une région de confiance 


de niveau approximatif 0,95. 


Appliquant ceci à (y, 0°) dans le cas gaussien on a (voir exemple 6.18) : 


ons 2) « tuot=(S pa). 


201 


[æ} 


D'où la région de confiance au niveau 0,95 (où ici la substitution I(#, 3?) pour 
I(u1, a?) n’est pas nécessaire) : 
n 


(ua + (0? 8) < x805(2) = 5,99 


o? 


qui correspond à l’intérieur d’une ellipse centrée sur l’estimation du MV : 
(x, 32). En fait, on montre que cette région est plus intéressante que celle ob- 
tenue plus haut car elle est (en espérance mathématique, et pour n pas trop 
petit) de surface inférieure. 


Grâce à la résolution numérique vue en section 7.3 permettant d’accéder 
à I(OMV), les logiciels peuvent, pour # = 2, tracer les ellipses contenant le 
paramètre à un niveau de confiance donné. 
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7.9 Intervalles de confiance et tests 


Nous verrons en section 9.8 qu’il y a une dualité entre une procédure d’IC 
et une procédure de test. Comme il est généralement plus facile d'élaborer une 
procédure de test, nous montrerons comment, à partir de celle-ci, construire 
un intervalle de confiance. Cela permettra de couvrir des situations encore plus 
diverses que celles envisageables par les approches directes du présent chapitre. 


Pour approfondir la théorie des intervalles de confiance (et, plus générale- 
ment, la théorie de l’estimation et des tests) on pourra consulter le livre de Cox 
et Hinkley (1979) ou celui de Shao (1999). 


7.10 Exercices 


Exercice 7.1 Pour la loi de Gauss Wu, a?) où (u, a?) est inconnu comparer 
la largeur de l’IC obtenu pour y à celle de l’IC obtenu pour o& quand n est 
grand. 

Aide : pour © on partira de la formule de la note 7.5 et on utilisera l’ap- 
proximation de la loi du x? par une loi de Gauss. 


Exercice 7.2 Soit la loi de Gauss N(u, o?) où y est connu — on prendra u = 0 


— et o? inconnu. Donner un IC pour o?. 


: X2? : : 
Aide : montrer que is —+ est une fonction pivot. 


Exercice 7.3 (méthode des quantiles) Donner un IC à 95% pour 0 de la 
loi #10, 0] en utilisant la loi de la statistique exhaustive minimale X(,,. 


Exercice 7.4 (méthode des quantiles) * Soit F,2(x; 2n) la fonction de ré- 
partition de la loi du khi-deux à 2n degrés de liberté. Montrer que : 


Ve it 
Fa(x;2n) =1— >» US 
k=0 


Aide : on calculera l’intégrale de la densité en intégrant par parties et en 
exploitant la relation de récurrence obtenue. 


Soit Fp(x; À) la fonction de répartition de la loi de Poisson P(À). Montrer 
que Fp(x; À) = 1 — F,2(2X;2x + 2) et que, grâce à cette relation, on peut 
résoudre immédiatement les deux équations de la méthode des quantiles pour 
la loi de Poisson, à l’aide d’une table du khi-deux. Consulter une telle table 
pour vérifier le résultat de l’exemple 7.6. 


Exercice 7.5 (méthode des quantiles) Soit un échantillon de la loi de 
Bernoulli de taille 20 pour lequel on à observé 37°, X; = 8 (soit 8 succès 
au cours de 20 répétitions). Montrer, en résolvant les équations de la méthode 
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des quantiles au moyen d’un logiciel mathématique, qu’on obtient un IC à 95% 
égal à [0,19 ; 0,64]. Comparer à l’IC de la formule asymptotique. 


Exercice 7.6 Soit la loi mère W(u,0?) où y est inconnu mais a? est connu. 


Dans une approche bayésienne on se donne une loi a priori N(uo , oâ) pour y. 
Montrer que la loi a posteriori de 1 est gaussienne de moyenne : 


où € + o*lo/n 


2 2 
o$ + o?/n 
et de variance : HS 
060 /n 
21 52 
o$ + o?/n 


où & est la moyenne observée sur un échantillon de taille n. En déduire un inter- 
valle de probabilité de niveau 0,95 et le comparer à l’IC classique avec a? connu 
(voir fin de section 7.4.1). Montrer que les deux intervalles sont équivalents 
quand n — co. 


Exercice 7.7 Montrer que la procédure d’IC proposée en section 7.4.5 pour 
le paramètre p d’une loi de Bernoulli est convergente en probabilité. 


Exercices appliqués! 


Exercice 7.8 On veut estimer le rendement d’un engrais pour la culture du 
blé. Sur douze parcelles expérimentales, on a trouvé les rendements suivants en 
tonnes par hectare : 
7.7  8A 78 8.2 79 8.5 84 82 7.6 78 8A 8.3 
Donner un intervalle de confiance à 95% pour le rendement moyen de l’en- 
grais (on supposera que le rendement à l’hectare est une v.a. gaussienne). 


Exercice 7.9 Un hôpital souhaite estimer le coût moyen d’un patient, sachant 
que le coût par jour est de 200 euros. Pour un échantillon aléatoire de 500 
patients on a observé une durée de séjour moyenne de 5,4 jours avec un écart- 
type de 3,1 jours. Donner un intervalle de confiance à 90 % pour la durée 
moyenne de séjour d’un patient et en déduire un intervalle pour le coût moyen 
d’un patient. 


Exercice 7.10 Une société d’assurance doit évaluer, en fin d’année, la provi- 
sion à faire au bilan pour les sinistres en cours n’ayant pas encore fait l’objet 
d’un règlement. Elle sélectionne au hasard 200 dossiers qui sont évalués en 
moyenne à 9944 euros, l’écart-type des valeurs étant égal à 1901 euros. Sa- 
chant que 11210 dossiers sont en cours, donner un intervalle de confiance sur 
la provision totale à effectuer. 


lUn ou deux de ces exercices appliqués sont des emprunts dont nous avons perdu la source. 
Nous nous en excusons auprès des involontaires contributeurs. 
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Exercice 7.11 Pour évaluer le nombre de mots d’un livre on tire 20 pages au 
hasard et on y compte le nombre de mots. On trouve, pour les 20 valeurs, une 
moyenne de 614 mots et un écart-type de 26 mots. Donner un intervalle de 
confiance à 95 % pour le nombre total de mots du livre sachant qu’il a 158 
pages (on admettra que l’approximation gaussienne est satisfaisante). 


Exercice 7.12 On souhaite évaluer le gain de consommation obtenu avec un 
nouveau carburant pour automobile. Un test en laboratoire est effectué sur 20 
moteurs du même type. Dix moteurs sont alimentés en carburant traditionnel 
et donnent sur une durée donnée une consommation moyenne de 10,8 litres avec 
un écart-type de 0,21 litre. Pour les dix autres moteurs le nouveau carburant 
est utilisé et l’on observe une consommation moyenne de 10,3 litres avec un 
écart-type de 0,18 litre. Donner un intervalle de confiance à 90 % sur le gain 
moyen procuré par le nouveau carburant (on supposera que les approximations 
gaussiennes sont satisfaisantes). 


Exercice 7.13 Un stock comporte 10 000 pièces. Pour évaluer le nombre de 
pièces défectueuses dans le stock on tire au hasard 400 pièces dont on constate 
que 45 sont défectueuses. 

Donner un intervalle de confiance à 99 % pour le nombre total de pièces 
défectueuses. 


Exercice 7.14 Un sondage auprès de 1500 ménages tirés au hasard dans 
la population française a indiqué que 20 % de ceux-ci prévoient d’acheter 
une nouvelle voiture dans les douze prochains mois. Estimer par un intervalle 
de confiance à 95 % le pourcentage de ménages de la population française 
prévoyant d'acheter une nouvelle voiture dans les douze mois. 


Exercice 7.15 On veut évaluer la différence des proportions de pièces défec- 
tueuses dans deux procédés de fabrication différents. Pour cela on tire au hasard 
1000 pièces réalisées selon le premier procédé. Les ayant testées on en a trouvé 
86 défectueuses. 

On opère de même pour 800 pièces réalisées selon le deuxième procédé et 
on en trouve 92 défectueuses. 

Donner un intervalle de confiance sur la différence des proportions de pièces 
défectueuses dans les deux procédés. 


Exercice 7.16 Dans une ville on donne la répartition du nombre de jours 
sans accident, avec un accident, etc. parmi 50 jours d'observation au cours 
d’une même année : 


Nbre accidents 0 1 2 3 4 
Nbre jours 21 18 7 3 1 


On suppose que le nombre d’accidents par jour suit une loi de Poisson. 
Donner un intervalle de confiance de niveau 0,95 pour le nombre moyen 
d'accidents par jour (on utilisera une approximation asymptotique). 


166 Statistique — La théorie et ses applications 


Exercice 7.17 Dix bouteilles d’eau minérale provenant d’une source donnée 
sont analysées. On relève les taux de nitrates suivants, en mg/l : 


3.61 3,56 3,67 3,56 3,64 3,62 344 3,52 3,55 3,52 


Donner un intervalle de confiance à 95% pour l’écart-type du taux de ni- 
trates dans les bouteilles produites (on supposera ce taux gaussien). 


Chapitre 8 


Estimation non 
paramétrique et estimation 
fonctionnelle 


8.1 Introduction 


Nous considérons maintenant que la loi mère ne fait pas partie d’une famille 
paramétrable de lois, c’est-à-dire que nos connaissances sur la nature de cette loi 
sont beaucoup plus floues, ce qui correspond d’ailleurs souvent plus à la réalité, 
notamment lorsqu'il s’agit d’un sondage dans une population. Tout au plus 
ferons-nous ici ou là l'hypothèse que sa fonction de répartition, ou sa densité 
(cas continu), ou sa fonction de probabilité (cas discret) répond à des conditions 
de régularité, principalement la dérivabilité et l’existence de moments jusqu’à 
un certain ordre. 


I ne peut donc plus s’agir ici d'estimer un paramètre qui déterminerait 
totalement la loi et par suite toute caractéristique de celle-ci. Dès lors deux 
orientations sont possibles. Soit on s'intéresse uniquement à quelques valeurs 
caractéristiques de la loi (ou de la population dans la situation de sondage) : 
moyenne, variance ou écart-type, médiane ou tout autre quantile, et dans ce cas 
nous sommes dans un contexte d'estimation non paramétrique ponctuelle. Soit, 
ce qui est nouveau par rapport à l’estimation paramétrique, on veut estimer 
la loi dans sa globalité par sa fonction de répartition ou sa densité, ou sa 
fonction de probabilité (quoique, on le verra, le cas discret soit peu concerné) 
et l’on parle alors d’estimation fonctionnelle. Pour illustrer cette deuxième 
orientation, disons déjà que l’histogramme utilisé en statistique descriptive est 
une façon rudimentaire d'approcher la densité de la loi, dont nous étudierons 
d’ailleurs l'efficacité. 
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Nous commençons par l’estimation ponctuelle en nous bornant aux ca- 
ractéristiques mentionnées ci-dessus. Nous reprendrons certains résultats des 
chapitres précédents dont nous avons pu dire qu’ils étaient en fait de portée 
générale et non pas limitée au cadre paramétrique. Dans la mesure du possible 
nous traiterons simultanément le problème de la construction d’un intervalle 
de confiance. 


Dans ce chapitre, comme précédemment, la loi mère sera symbolisée par la 
v.a. générique X, sa fonction de répartition par F, sa fonction de densité ou de 
probabilité par f. 


8.2 Estimation de la moyenne et de la variance 
de la loi 


8.2.1 Estimation de la moyenne 


Nous avons vu en section 6.5.1 que les moments empiriques simples (s’ils 
existent) sont des estimateurs sans biais des moments correspondants de la 
loi mère et ceci quelle que soit la nature de cette loi. En section 6.5.3 on a 
vu encore qu'en conséquence de la loi des grands nombres, ces estimateurs 
sont convergents presque sûrement. Pour que le moment d’ordre k converge il 
suffit que E(|XŸ]|) existe (voir proposition 6.1). Cela s'applique évidemment à 
la moyenne empirique X — 321 Xi. Notons que, pour un sondage dans une 
population finie, ces conditions d’existence des moments sont nécessairement 
réunies, ceux-Ci étant des caractéristiques descriptives de la population dans son 
ensemble. Pour X nous avions directement établi en section 5.2 (proposition 
5.1) que (si o? existe) : 


la première relation reflétant un biais nul et la deuxième montrant directement 
la convergence en moyenne quadratique. 


En conclusion nous utiliserons naturellement la moyenne empirique pour 
estimer la moyenne de la loi, nous satisfaisant de ces propriétés. Il n’est pas 
possible de dire si tel est le meilleur choix possible, sauf à imposer des condi- 
tions restrictives sur la nature de la loi mère, ce qui n’est pas dans l’esprit de 
l'estimation non paramétrique. 


En section 7.4.1 nous avons noté que, dès lors que n est assez grand, on a : 


X-H 
ai 
Sn ne 


en vertu du théorème central limite et de la convergence de $? vers o?. Nous 
en avons déduit que l'intervalle de confiance classique (à 95 %) propre au cas 
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d’une loi mère gaussienne : 


ICoss() = - os 2, 5 +50 ©] 


0,975 Vn ? 0,975 Vn 


fournit une bonne approximation pour une loi quelconque. 


Influence de valeurs extrêmes ou aberrantes 


Il à été dit qu’en principe n > 30 suffit. Cependant l’approximation par une 
loi de Student posera problème pour des v.a. dont les queues de distribution 
sont allongées et peuvent produire des observations très éloignées du centre. Si 
l’on étudie, par exemple, le niveau maximum annuel de crue d’une rivière sur les 
cent dernières années celui-ci reste en général assez semblable mais on trouvera 
quelques cas de valeurs exceptionnelles. Une valeur très excentrée va influencer 
fortement la valeur de 7 et encore plus, car interviennent des écarts au carré, 
celle de la variance s?, rendant ainsi ces statistiques trop instables pour ga- 
rantir l’approximation par une loi de Student si la taille de l’échantillon n’est 
pas très élevée. Pour les mêmes raisons, si les observations sont contaminées 
par des valeurs aberrantes l’approximation sera défaillante. Ceci peut provenir, 
par exemple, d'erreurs dans le recueil des informations ou de présences de va- 
leurs étrangères au phénomène étudié (dans les sondages, présence d'individus 
distincts n’appartenant pas à la population). Si l’on soupçonne la présence de 
valeurs très extrêmes ou aberrantes on peut soit éliminer purement et simple- 
ment les valeurs trop éloignées par examen de la distribution des observations 
(histogramme), soit réduire leurs poids dans le calcul de la moyenne et de la 
variance. On définit ainsi des M-estimateurs dont l’étude des propriétés fait 
l’objet de la théorie de la robustesse. En particulier la moyenne a-tronquée, 
appropriée si la distribution est à peu près symétrique, est un M-estimateur 
facile à mettre en oeuvre : elle consiste à rejeter un pourcentage d'observations 
égal à 100($) sur chaque extrémité. On peut également renoncer à la moyenne 
comme valeur caractéristique de position centrale de la distribution et préférer 
la médiane qui ne présente pas les mêmes inconvénients. 


8.2.2 Estimation de la variance 0? 


On privilégiera l’estimateur $? dont on sait qu’il est sans biais et convergent 
(voir section 6.5.3). Pour ce qui concerne un intervalle de confiance la procédure 
classique obtenue dans le cas gaussien (voir section 7.4.2) ne peut être utilisée 
car (n — 1)S?/o? ne suit plus une loi y?(n — 1) dès que l’on s’écarte de cette 
hypothèse, y compris quand n tend vers l’infini. On a vu toutefois (note 5.5) que 
le théorème central limite s'applique à $?, moyennant l'existence du moment 
d'ordre 4, et l’on peut donc établir la loi asymptotique de $? dans le cas général 
sachant que (voir exercice 5.4) : 


1 n —3 
V(S?) = (4 — 


4 
0e 
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où y}, est le moment centré d’ordre 4 de la loi mère. Comme V(S?) est asympto- 
tiquement équivalent à Lu — o4) on a, après centrage et réduction, le résultat 
suivant : 


En écrivant cette statistique centrée et réduite sous la forme : 


Vn(S? — 0?) 


on fait apparaître le coefficient de curtose y},/o* qui vaut 3 pour la loi de 
Gauss, est supérieur à 3 pour une loi à pic plus prononcé au mode et queues 
plus allongées, est inférieur à 3 pour une loi à pic plus plat et queues courtes. 
Dans le cas gaussien cette expression est bien, au facteur 4/(n — 1)/n près, 
la version centrée et réduite de (n — 1)S?/o? puisque la loi y?(n — 1) est de 
moyenne n — 1 et de variance 2(n — 1). Par ailleurs on a vu (voir la remarque 
en section 5.8) que la loi du khi-deux tend à devenir gaussienne quand n tend 
vers l'infini. 


Pour construire un intervalle de confiance asymptotique, on peut envisager 
d’estimer y} — a par sa version empirique M} — $4 (ou le coefficient de curtose 
par la curtose empirique M,/S4), mais la convergence est lente et un nombre 
important d'observations sera nécessaire pour espérer une bonne approxima- 
tion. On peut recourir à une approche dite par rééchantillonnage dont l'intérêt 
est général et c’est pourquoi nous y consacrons une section spécifique. Cette 
approche sera également appropriée pour l’estimation de l’écart-type. 


8.3 Estimation d’un quantile 


Nous supposerons que la v.a. soit continue pour que tout quantile existe. 
Pour qu’il y ait unicité nous supposerons aussi que le support de la densité f 
soit un intervalle [a, b], où éventuellement a = —o et/ou b = +, de façon 
que F' soit strictement croissante sur l’ensemble des valeurs de x telles que 
0 < F(x) < 1 (voir section 1.5). Nous considérerons essentiellement la médiane, 
les développements étant similaires pour un quantile quelconque. 


Notons ji la médiane de la loi mère et X la médiane empirique définie par : 


s e sin —2m—1 


S (X(m) + X(m+1)) sin = 2m 


Où X{m) est la statistique d’ordre m (voir section 5.6). X est l’estimateur na- 
turel de . Dans la proposition 5.12 nous avons donné la loi d’une statistique 
d'ordre quelconque, ce qui s’applique directement au cas de n impair. Pour n 
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fini X n’est pas nécessairement sans biais et sa variance n’a pas d’expression 
simple. On doit se contenter de la propriété asymptotique suivante, que nous 
admettrons. 


Proposition 8.1 Soit une loi continue de densité f et de médiane ji, et soit 
Xn la médiane d’un n-échantillon X1, X2,--:,X, issu de cette loi. On a : 


00, Tr 


et 2F()Vn(X -) = N(0:1). 


La médiane empirique est donc asymptotiquement sans biais et converge en 
moyenne quadratique vers à puisque sa variance tend vers 0 (on peut aussi 
montrer qu’elle converge presque sûrement). Étant donné que f (4) est in- 
connu, il faudrait une estimation de cette valeur pour construire un intervalle 
de confiance approximatif. On dispose cependant d’une approche directe pour 
n fini. 


Soit N le nombre d'observations inférieures ou égales à y. Pour chaque X; 
la probabilité d’être inférieur ou égal à % vaut +, et N < B(n, $). On a donc : 


la 
à 1 
PH<N<h)= (ja 


k=l: 


Choisissons l. et l2 tels que, d’une part, la probabilité ci-dessus soit supérieure 
ou égale à 0,95 et au plus proche de cette valeur et, d’autre part, que b 
soit égal à n— {1 ou le plus proche possible pour avoir l’intervalle [4,1] le 
plus symétrique possible par rapport à n/2 et donc le plus étroit. Notons que 
l'événement (X(4,) < ji) signifie qu’il y a au moins /, observations inférieures 
ou égales à à et il est donc identique à (1 < N ) et, de même, l'événement 
(u < X{,+1) est identique à l’événement (N < 2). La probabilité ci-dessus 
est donc égale à P(X4,) < Hi < X{,41) et ceci quel que soit ÿ. Pour un 
échantillon réalisé æ1,%2,...,2,, ceci fournit donc un intervalle de confiance à 
95 % pour 4 : 
TC) = fra), Ta+nl. 

Pratiquement on peut fermer l'intervalle à droite, les statistiques d’ordre étant 
des v.a. continues. 


Exemple 8.1 Soit n = 20. On à pour N + B(20:0,5) : P(N < 5) = 0,021 
(mais P(N < 6) = 0,58) et par symétrie P(N > 15) = 0,021 d’où 


P(6< N < 14) = 0,958 et ICo,5(&) = [t(6), T(15)] 


On pourra utiliser assez vite l’approximation gaussienne du fait que p = 1/2 
(le critère np > 5 et n(1 — p) > 5 de la section 5.8.3 revenant à n > 10). Avec 
correction de continuité on obtient ici 0,022 pour P(N <5). = 
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Pour le quantile x, d'ordre q considérons X,,4+10ù [nq] est la partie entière 
de nq. La proposition s’applique à X4]+1 avec : 


q(1 — q) 


NV (Xng]+1) ne FCI 
et PAC Ta) _ N(0 ; 1) ; 
qa(1— q) ne 


L’intervalle de confiance pour x, est obtenu de façon analogue à partir de la 
loi B(n, q). 


Note 8.1 De la proposition 8.1 on peut déduire la précision relative asymp- 
totique de la médiane empirique par rapport à la moyenne empirique dans le 
cas gaussien, par exemple. Pour cette loi f(x) = f(u) = 1/V2ra et V(X) est 
donc équivalent à ee quand n tend vers l'infini. La variance asymptotique de 
la médiane est donc 7/2 fois plus grande. 


8.4 Les méthodes de rééchantillonnage 


8.4.1 Introduction 


Ces méthodes ont pour principe de simuler la variabilité des estimateurs 
en tirant des échantillons à l’intérieur de l’échantillon recueilli. La méthode 
du jackknife (littéralement couteau de poche ou canif) est la plus ancienne 
et effectue des tirages déterministes. La méthode du bootstrap (chausse-pied) 
constitue une généralisation du jackknife qui n’a pu être conçue que dès lors que 
de puissants moyens informatiques étaient disponibles. Du fait qu’elle effectue 
des tirages au hasard elle est de portée beaucoup plus générale. Le jackknife a 
été développé initialement par M. Quenouille et J. Tukey dans les années 1950 
pour réduire le biais d’un estimateur donné, puis à été envisagé pour obtenir des 
intervalles de confiance. Le bootstrap a été proposé par Efron (1979). Notons 
que ces méthodes s’appliquent aussi bien dans le cas discret que dans le cas 
continu. 


Les estimateurs non paramétriques du maximum de vraisemblance 


Ces estimateurs sont les estimateurs de référence du jackknife comme du 
bootstrap et il est utile de les expliciter. Pour une caractéristique w de la loi 
définie par sa fonction de répartition F (en bref nous dironsla loi F) son esti- 
mateur du maximum de vraisemblance © est obtenu par sa version empirique, 
c’est-à-dire la caractéristique de même nature calculée sur l’échantillon : la 
moyenne de la loi est estimée par la moyenne de l'échantillon X, la variance 
par S?, la médiane de la loi par la médiane de l’échantillon, ete. Ceci découle 
du fait que la fonction de répartition empirique F, (définie en section 5.7) 
est l’estimateur fonctionnel (i.e. une fonction pour estimer une fonction) du 
maximum de vraisemblance pour F (voir plus loin, section 8.5.3). 
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Notons que le passage d’une caractéristique théorique à la caractéristique 
empirique correspondante est immédiat dans le cas d’une loi discrète (et en 
particulier dans le cas d’un tirage au hasard dans une population finie) car il 
suffit d'appliquer à l’échantillon la même formule de définition que celle de la 
caractéristique. Si la loi est continue et que la caractéristique est propre à ce 
type de loi, le passage peut être plus délicat du fait que F, n’est pas continue. 
C’est par exemple le cas d’un mode de la loi (maximum de la dérivée de F) qui 
n’a pas d’équivalent direct sur l’échantillon. On pourra alors utiliser un lissage 
de F, en continu du type de celui présenté en section 8.5.3. 


Note 8.2 Puisque la loi est parfaitement définie à partir de F, une caractéristique w 
de la loi F peut s'exprimer comme une application w(F')qui à une fonction fait corres- 
pondre un réel. On dira que w est un opérateur fonctionnel (en bref une fonctionnelle). 
Par exemple la moyenne {4 est égale à l’intégrale de Riemann-Stieltjes définie dans la 
note 2.1 : H(F) = A xdF(x) et la moyenne empirique est la statistique fonctionnelle 
correspondante obtenue en remplaçant F' par la fonction de répartition empirique 
Fr :T= je xdF,(x) (voir note 5.4). Plus généralement, ce que nous avons appelé la 
version empirique de w(F) est w(F}). Comme la fonction de répartition empirique 
F, est l’estimation du maximum de vraisemblance de F' (voir section 8.5.3), par voie 
de conséquence w(F,), en tant que fonction de F», est l'estimation du maximum de 
vraisemblance de w(F). 


8.4.2 La méthode du jackknife 


Nous illustrons d’abord le principe du jackknife pour l’estimation de l’écart- 
type s de la loi. Soit l’estimateur de référence : 


save SX -X) 


n—14 
i=1 


qui est généralement biaisé (voir exercice 6.4 pour le cas de la loi de Gauss) 
et soit s l’estimation correspondante pour une réalisation æ1,%2,-::,%n de 
l'échantillon. L’estimation du jackknife est obtenue de la façon suivante. 


On calcule la valeur, notée s_1, de l’écart-type du sous-échantillon obtenu 
en omettant la valeur x: : 


puis la valeur s,1 = ns — (n — 1)s_1. On répète cette opération en omet- 
tant à tour de rôle chacune des observations pour obtenir n pseudo-valeurs 
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8x1» S42, °°" ; Sxn AVEC, dONC : 


L’estimation du jackknife est alors la moyenne des pseudo-valeurs, notée 5... 
Un intervalle de confiance approché peut être obtenu en appliquant à la série 
des n pseudo-valeurs le résultat de la section 6.4.1 concernant la moyenne d’un 
échantillon aléatoire gaussien. Ainsi on calcule la variance des pseudo-valeurs : 


ICoos(o) © [54 — GE , 5. + for 22€]. 


0,975 Vn 0,975 Vn 


De façon générale soit w une caractéristique de la loi et 7}, un estimateur 
convergent de w, typiquement l’estimateur du maximum de vraisemblance. Soit 
T;,{ l’estimateur calculé en omettant X;. On définit les pseudo-valeurs : 


rente (nu 


L’estimateur du jackknife fondé sur 7, est alors T5 — 1 at. 


Comme il a été dit en introduction cet estimateur a été proposé à l’origine 
pour réduire le biais éventuel de 7}, en vertu du résultat suivant. 


Proposition 8.2 Si le biais de T, est de la forme ©, où c est une constante, 
alors TF, l’estimateur du jackknife fondé sur T}, est sans biais. 


En effet, comme E(T,) = w + £, on a, pour tout 4, E(T,*) = w + — 


n—1 
puisque T}? est le même estimateur appliqué au (n — 1)—-échantillon aléatoire 
X1, Le À i-1, Xi41, ...  Xn. Ainsi : 


d'où E(T+) = L 5", E(T*) = w. 


Si le biais est de la forme +#%+-# +... on montre aisément de la même 
façon que le premier terme disparaît dans le biais de 7%. Par conséquent, au 
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moins pour des situations de ce type, il y a réduction de biais. Si l’on applique, 
par exemple, la procédure du jackknife à la variance empirique $? dont le biais 
pour estimer a? est —1o? (voir proposition 5.2), on trouve que l’estimateur du 
jackknife est la variance de l’échantillon $? qui est sans biais (voir exercices). 
Notons incidemment que pour l’estimateur X, de la moyenne y qui est sans 
biais, l’estimateur du jackknife est X, lui-même. 


En général, la loi étant totalement inconnue, on ne connaît pas la forme 
du biais (comme par exemple pour l’écart-type S dans l’illustration ci-dessus), 
mais on s’attend à ce qu’il soit de toute façon réduit par la procédure décrite. 


Outre la réduction du biais, l’intérêt du jackknife, primordial ici, est de 
permettre l'estimation de l’écart-type de 7, et la possibilité de construire un 
intervalle de confiance approché. La proposition qui suit va nous y conduire. 


Proposition 8.3 Soit T* l’estimateur du jackknife de la caractéristique w, 

reposant sur un estimateur convergent T,,, et soit S? ;K la variance des pseudo- 

valeurs. Alors, sous certaines conditions concernant la forme de la statistique : 
* 

TF — w £ 


OS 0;1). 
Sn,JKk/Vn He N( ? ) 


Nous admettrons cette proposition. Elle résulte du fait que les pseudo- 
valeurs tendent à être indépendantes et gaussiennes pour une grande variété de 
statistiques. En appliquant l’intervalle de confiance de la section 7.4.1 pour la 
moyenne de v.a. i.i.d. gaussiennes, on déduit l'intervalle de confiance approché 
pour w : 


* —1) S$n,JK 
TCo,o75(w) © [tr nr . 


à ee) SR ES 
n°" ’ Vi 
où {> et s x sont les réalisations respectives de T5 et de S, 7x. 


Ceci s’applique, en particulier, à l’écart-type comme nous l’avons vu plus 
haut (voir une application dans les exercices) et également pour estimer la 
variance o?. Dans ce dernier cas, en prenant l’estimateur du jackknife reposant 
sur la variance empirique $?, on établit que la variance des pseudo-valeurs 

2 ; n 
Sh.Jr est égale à : 


n3 


(n — 1)(n — DEA 


ce qui conduit à une procédure d'intervalle de confiance très proche (et asymp- 
totiquement équivalente) de l'approche asymptotique proposée en section 8.2.2. 
En effet, dans cette approche, on trouvait simplement M! — S4 en lieu et place 
de l’expression ci-dessus. 


M5), 


Les conditions de validité de la proposition ne sont pas simples à expliciter. 
1 


Si la statistique est de la forme + 57%, g(X;) où g est une fonction quelconque, 
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alors la proposition est vérifiée. C’est le cas de tous les moments simples. Si 
la forme est proche cela reste vrai, comme par exemple pour les moments 
centrés, en particulier pour la variance empirique, et aussi pour l’écart-type. 
En revanche, la médiane qui, dans sa version théorique, s'exprime par F71(à) 
a une forme très éloignée. Le jackknife est alors inadapté car S,, ;K ne converge 
pas vers la valeur de l’écart-type de la médiane. Il en va de même pour d’autres 
statistiques fonctions des statistiques d'ordres : quantiles, étendue X4{, — X(1,, 
distance interquartiles. 


Note 8.3 Pour préciser quelque peu le domaine de validité du jackknife exprimons 
une caractéristique w comme une expression fonctionnelle w(F'). Une fonctionnelle 
est dite linéaire si w(a1 F1 + a2F2) = aiw(F1) + azw(F2). Dans ce cas on montre 
que w(F) est de la forme : 


w(F) = Î g()dF (a) = Er(g(X)). 


Pour la statistique correspondante w(F,) du maximum de vraisemblance cela se 
traduit par 1 re g(Xi). Ceci est évidemment le cas de la moyenne empirique et 
de tout autre moment empirique non centré. 


Un moment centré n’est pas strictement de cette forme. Par exemple la variance 
Er([X — Er(X)|?) est l'espérance d’une fonction qui dépend elle-même de F. La 
condition pour que le jackknife soit opérant au niveau de la convergence de S, 3x 
est que la caractéristique, et donc la statistique du MV, soit une fonctionnelle linéaire 
ou pouvant être raisonnablement approchée par une fonctionnelle linéaire. Ceci est 
réalisable pour la variance empirique (qui est une fonctionnelle quadratique) mais pas 
dans le cas de la médiane qui est trop fortement non linéaire. 


Le jackknife peut être utilisé pour des couples (et des n-uplets) de v.a., par 
exemple pour la corrélation entre deux variables, pour la moyenne du ratio de 
deux variables. Il s'étend également à des situations autres que des échantillons 
aléatoires simples. Par ailleurs, différentes variantes du jackknife initial ont été 
proposées. En particulier, pour de très grands échantillons, il est pratiquement 
aussi efficace de l’appliquer en omettant non pas chaque observation mais des 
groupes de k observations, ceci afin d’accélérer les calculs. Dans le cas de la 
médiane le fait de grouper les observations avec k£ de l’ordre de /n permet 
même d'assurer la convergence selon la proposition 8.3 et donc d’appliquer 
l’intervalle de confiance qui en découle. 


Rien ne s’oppose à ce qu’on utilise cette méthode dans un cadre paramé- 
trique pour des fonctions du paramètre complexes. Par exemple on pourra 
estimer e—”, la probabilité qu’il n’y ait aucune occurrence dans une unité de 
temps pour une loi de Poisson, en se fondant sur l’estimateur du maximum de 


vraisemblance e-* (ceci est à rapprocher de l'exemple 6.13). 


En ce qui concerne l’approximation asymptotique de l'intervalle de confiance 
issu du jackknife il est difficile de savoir à partir de quelle taille d’échantillon 
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elle devient satisfaisante. Pour les petits échantillons le bootstrap offre une 
alternative plus sûre. 


8.4.3 La méthode du bootstrap 


Le bootstrap est une approche très générale pour des situations les plus 
variées. [Il est certes plus coûteux en calcul que le jackknife mais donne en 
général des estimateurs de variance plus faible. On à pu le voir comme une 
généralisation du jackknife ou, plus exactement, le jackknife a pu être considéré 
comme une forme appauvrie du bootstrap. Au lieu de rééchantillonner au ha- 
sard un grand nombre de fois, comme la théorie montre qu’il convient de le faire 
et comme le fait le bootstrap, le jackknife se contente de choisir des échantillons 
bien déterminés en nombre limité à n. 


Nous indiquerons sans démonstration! comment le bootstrap permet d’es- 
timer la variance (donc la précision) d’un estimateur, ce qui débouche sur la 
construction d’un intervalle de confiance approché. Pour ne pas alourdir les 
notations on passera indifféremment d’une variable aléatoire à sa réalisation, 
le contexte permettant de reconnaître l’une ou l’autre de ces entités. 


Soit © un estimateur d’une caractéristique w de la loi mère, cette loi étant 
quelconque, continue ou discrète, de fonction de répartition inconnue F. On 
s'intéresse à la variance Vr(&) de & ou, plutôt, à une estimation de cette va- 
riance puisque Fest inconnue. Pour aboutir à cette estimation on opère selon 
les étapes suivantes : 


1. soit x1,%2,...,4n l'échantillon réalisé. On effectue n tirages au hasard 
avec remise parmi les valeurs æ1,%2,...,2, (on s’attend à des répétitions 
car il est très improbable de tirer les n valeurs distinctes initiales). On 
calcule l'estimation &* obtenue sur la base de ce nouvel échantillon. 


2. on répète l'opération précédente M fois pour obtenir une série d’estima- 
tions ©f,05,...,07y. 

3. l’estimation de la variance propre à © est fournie par la variance descrip- 
tive de cette série d’observations, i.e. : 


s* (5) = Mi © DÉS 


k=1 


Sat Zoe 2 
où & désigne la moyenne de la série. 


On montre que lorsque M tend vers l'infini, l’estimateur issu de cette 
procédure tend presque sûrement vers l’estimateur du maximum de vraisem- 
blance de Vr(&). En pratique M = 100 fournit une approximation suffisante de 
cet EMV car l'écart sera alors négligeable par rapport à l'erreur d’estimation 
du maximum de vraisemblance lui-même. 


lPour de plus amples développements on pourra consulter les ouvrages de référence in- 
diqués en fin de section. 
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Note 8.4 Dénotons Vr(&) comme une forme fonctionnelle oà (F) pour faire ap- 
paraître le lien avec la loi mère de l’échantillon. Sauf dans les cas simples cette 
fonctionnelle ne peut être explicitée ce qui n’a aucune importance ici. Prenons tou- 
tefois comme illustration élémentaire le cas où © est X, l’estimateur «moyenne de 
l'échantillon». On sait que sa variance est la variance de la loi mère divisée par n et 
l’on peut donc expliciter le lien : 


RE) = à (x -n#4P(x) 


n 


où y est en fait U{(F) =} xdF(x). Si, comme dans ce cas, la forme fonctionnelle 
ne (F) est connue on peut l’estimer par sa version empirique ce (Fh) obtenue en 


remplaçant F' par F}, qui est l’estimateur du maximum de vraisemblance de oà (F) 


(voir note 8.2). Ainsi pour la moyenne, 0 (Fn) devient S2/n. Mais si © est, par 


exemple, l’estimateur «médiane de l’échantillon» on ne connaît pas l’expression de sa 
variance. C’est alors que la procédure bootstrap devient particulièrement précieuse. 


2 
®) 
par simulation : on sait générer des échantillons de taille n issus de la loi F (méthode 


Si l’on connaissait F on pourrait estimer 0 (F) avec toute la précision souhaitée 
de Monte-Carlo), sur chaque échantillon on calculerait la statistique © et, pour un 
grand nombre d'échantillons ainsi générés, on approcherait la distribution réelle de 
&. En calculant, par exemple, la variance empirique des valeurs de © ainsi générées 
on obtiendrait une estimation de la vraie variance de ©, d’autant plus précise que le 
nombre d’échantillons générés serait grand, en vertu de la loi des grands nombres. Le 
processus est identique lorsqu'il s’agit d’estimer ga (Fn) en considérant maintenant 
l’échantillon réalisé Z1,%2,...,%n comme une population en soi, la distribution de 
celle-ci étant caractérisée par F,. Si l’on parcourt l’univers de tous les échantillons 
possibles (A1 — ) et que l’on examine comment varie la statistique © en calculant 
sa variance on obtient pe (Fh). Par exemple la variance des moyennes des échantillons 
convergera vers S?/n. Pour cette raison oà (Fh) est appelé estimation du boots- 
trap de la variance de © puisque la procédure de rééchantillonnage permet de se 
rapprocher autant que l’on veut de l'EMV. Notons au passage que le jackknife ne 
parcourt que n échantillons particuliers ce qui explique ses performances moindres. 


Ayant estimé la variance de © on peut obtenir un intervalle de confiance 
approché pour w en supposant que © soit asymptotiquement sans biais et gaus- 
sien : 


ICo,95(w) © [© — 1,96 s*(5), © +1,96s*(&)]. 


L’approximation gaussienne est fréquemment légitime, en particulier si © est 
lui-même une estimation du maximum de vraisemblance de w, la normalité 
asymptotique de l’'EMV énoncée en proposition 6.11 dépassant le strict cadre 
paramétrique. Mais celle-ci n’est pas assurée pour tous les types de statistiques 
ou bien elle peut être trop lente pour fournir une approximation satisfaisante 
au vu de la taille n de l’échantillon. En fait on peut contrôler l'hypothèse de 
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normalité en examinant l’histogramme des valeurs &*,@5,...,0%, car il reflète 
la distribution de © (voir section 8.5.2). 


On peut améliorer cette méthode «basique» par la méthode studentisée. 
Cette méthode s'applique toutefois si © tend à être gaussien quand n — 
avec une variance de forme équivalente à o2/n où o? est une constante (par 
exemple si © est EMV ce peut être 1/7(w)) et si lon dispose d’un estimateur 
convergent de a? que nous noterons simplement s?. A l'étape 1 on calcule, en 
plus de &*, la valeur s?* pour les n valeurs rééchantillonnées. L'étape 2 produit, 
en plus de la série des &* précédents, les s** correspondants. On calcule alors 
la série des valeurs TŸ,75,...,TŸ, définie par : 


D - 0 
sn 


et l’on détermine les quantiles empiriques t6 625 et {6.975 de cette série (moyen- 
nant M grand, disons M + 1000, pour évaluer avec suffisamment de précision 
de petites probabilités sur les extrémités de la distribution). Alors l’IC approché 
est : 


S 


Un. 


2 * $ = * 
ICo,95(w) © [© + 66,025 ne & + 16,975 


La méthode des percentiles constitue une autre approche simple à mettre 
en oeuvre et, de ce fait, assez répandue. Elle s'applique en prenant directement 
pour bornes, avec M + 1000, les quantiles empiriques @ 625 et ©5975 d'ordres 
respectifs 0,025 et 0,975 de la série &Y,@35,...,0%,, soit : 


ICoss(w) = [56 025 ) O,o7s] è 


Cette méthode présentée à l’origine comme méthode de référence des IC boots- 
trap est moins précise que la précédente et ne donne de bons résultats qu’à 
condition qu'il existe une fonction croissante À telle que A(&) ait une loi sy- 
métrique autour de h(w). Cette condition est forte et évidemment invérifiable 
dans les situations pratiques complexes où le bootstrap est le principal recours. 
Cette méthode n’est donc pas sans risque. 


Nous avons concentré notre attention sur l’obtention d’un intervalle de 
confiance dans le cadre non paramétrique. Cependant l'intérêt des valeurs 


bootstrap &7,@5,...,0%, ne se limite pas à cela. En effet pour des types très 
divers de statistiques, il à été démontré que la distribution générée par les 
valeurs ©*,@5,...,@7, en faisant tendre M vers l'infini, appelée distribution 


bootstrap de la statistique ©, converge vers la vraie distribution de & quand n 
tend vers l’infini et ceci de façon rapide. En d’autres termes, pour une valeur de 
M raisonnable, la série des valeurs &*,05,...,0%, reflète bien la distribution 
d’échantillonnage de &. Il faut bien distinguer la convergence pour M — qui, 


180 Statistique — La théorie et ses applications 


à un premier niveau, assure une bonne approche de l'estimation du maximum 
de vraisemblance de toute statistique propre à l’échantillon réalisé à partir 
de sa valeur dans la distribution bootstrap, de la convergence pour n — © qui, 
à un deuxième niveau, concerne la convergence de l’estimateur du maximum 
de vraisemblance vers la vraie valeur w, même si, en vérité, les deux niveaux 
sont intimement liés, et ceci de façon optimale, ce qui fait la grande force du 
bootstrap. Notons ici que la méthode des percentiles donne en fait un intervalle 
de probabilité approché pour la statistique ©. 


Aïnsi, au-delà de l’écart-type, toute caractéristique de la distribution 
d’échantillonnage de & peut être estimée par sa version empirique dans la série 
des valeurs bootstrap. Par exemple la moyenne de la série © est une estimation 
de la moyenne Er(&) de la loi de &. Ceci peut déboucher sur l’estimation du 
biais d’une statistique. Illustrons ceci pour la moyenne a-tronquée. 


En présence de valeurs extrêmes il peut être préférable (au sens de l’e.q.m.) 
d'utiliser une moyenne a-tronquée (voir section 8.2.1), que nous notons toujours 
&, pour estimer la moyenne y de la loi étudiée. On peut, par le bootstrap, 
estimer le gain en variance en comparant la variance bootstrap s2*(&) de cet 
estimateur à la variance estimée de la moyenne simple, à savoir s?/n. Mais 
cette moyenne a-tronquée peut être plus ou moins fortement biaisée. On peut 
obtenir une estimation raisonnable de ce biais par la différence © DZ (signalons 
toutefois qu’il n’est pas pour autant judicieux de rectifier de ce biais l’estimation 
&). Il est clair que ceci ne s'applique qu’en présence de valeurs extrêmes et non 
de valeurs aberrantes qui ne proviendraient pas de la loi F, car la théorie repose 
sur une série d'observations toutes issues de cette même loi F. 


L'approche bootstrap est appropriée dans des situations très complexes, où 
il n’y aura généralement pas d’alternative, et pas uniquement dans le cadre de 
l’échantillonnage aléatoire simple. C’est donc un outil extrêmement précieux 
qui est devenu viable avec les capacités de calcul actuelles. 


Signalons en particulier qu’alors que le jackknife échoue pour obtenir un 
intervalle de confiance pour la médiane (ou un quantile) de la loi mère, le 
bootstrap donne un résultat très proche de l’intervalle proposé par approche 
directe en section 8.3. Il est intéressant aussi de voir qu’il peut s’appliquer 
dans un cadre paramétrique si l’on estime une fonction du paramètre avec un 
estimateur dont on ignore la loi ou l'expression de la variance. On aura alors 
avantage à effectuer les tirages de l’étape 2 à partir de la fonction de répartition 
estimée F(x; og" V) obtenue en remplaçant @ par son estimation du maximum de 
vraisemblance dans l’expression F(x;0). On montre que pour M tendant vers 
l'infini et sous certaines conditions de régularité, l’intervalle de confiance de la 
méthode des percentiles tend vers celui obtenu par l’approximation normale 
asymptotique du MV vue en section 7.8. 


Enfin il existe des variantes visant à améliorer encore le bootstrap basique : 
méthode des percentiles à biais corrigé, bootstrap lissé. 
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Pour approfondir la méthode du bootstrap on pourra consulter l’ouvrage de 
Davison et Hinkley (1997) pour les aspects méthodologiques et celui de Shao 
et Tu (1995) pour les démonstrations mathématiques. 


8.5 Estimation fonctionnelle 


8.5.1 Introduction 


Dans le cadre non paramétrique il est pertinent de vouloir estimer, dans 
sa globalité, la fonction de répartition F, ou la fonction de densité f, ou la 
fonction de probabilité p, alors que, dans le cadre paramétrique, ces fonctions 
découlent du seul choix du paramètre inconnu 0. Pour les v.a. continues nous 
ferons l'hypothèse que F et f sont quelconques mais dérivables, donc lisses en 
pratique, au moins jusqu’à l’ordre 2 et parfois plus. Pour les v.a. discrètes on 
pourrait envisager de travailler avec de telles hypothèses pour F et p étendues 
à tout R (comme c’est le cas pour la plupart des lois discrètes usuelles), mais 
ceci n’est pratiquement jamais effectué car on se contente, l’ensemble des va- 
leurs possibles {x;} étant connu, d'estimer p(x;) (respectivement F(x;)) par 
les fréquences relatives (respectivement les fréquences relatives cumulées) ob- 
servées. Cette section ne concerne donc que les variables aléatoires 
continues. Au sens strict on exclut donc l'étude d’une population réelle qui 
ne prend qu’un nombre fini de valeurs, maïs on peut supposer qu’en amont 
d’une telle population il existe un modèle virtuel, parfois appelé modèle de 
superpopulation, qui est celui que l’on cherche à estimer. 


On peut se poser la question de savoir quel est l’intérêt réel de l’estima- 
tion de f ou de F. L'intérêt le plus immédiat est de visualiser la distribution 
des valeurs, ce qui est propre à la fonction de densité plutôt qu’à la fonc- 
tion de répartition. En effet cette dernière met mal en évidence les zones de 
fortes ou faibles probabilités. L’estimation de la densité peut aussi viser à une 
première prise de connaissance du phénomène de façon à orienter la recherche 
d’un modèle adéquat dans la panoplie des modèles paramétriques disponibles. 
Dans certaines applications techniques la densité ou la fonction de probabi- 
lité peut avoir un intérêt en soi, par exemple pour effectuer des simulations 
fines de processus ou pour montrer des caractéristiques très spécifiques (par 
exemple des points d’inflexion) ayant une interprétation physique. Quant aux 
caractéristiques usuelles (moyenne, variance, moments, quantiles, etc.) il arrive 
qu’en les estimant par les caractéristiques correspondantes de l’estimation de la 
fonction Fou f on améliore les méthodes d’estimation directes, mais nous n’en- 
visagerons pas ces possibilités encore peu explorées, considérant que globale- 
ment les estimations directes vues aux sections précédentes restent préférables. 
Nous n’avons pas abordé plus haut l’estimation du ou des modes de la distri- 
bution (i.e. les positions des maxima de la densité) : l’estimation de la densité 
fournira une façon pertinente d’estimer ces caractéristiques. 
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Le développement de l’estimation fonctionnelle est relativement récent, no- 
tamment parce que les méthodes mobilisent de gros moyens de calcul et qu’elles 
s'appliquent à des échantillons de taille plutôt grande. Dans les années 1950 
on s’est d’abord intéressé à l’estimation de la densité qui présente, comme on 
vient de le voir, un intérêt dominant. 


8.5.2 L’estimation de la densité 
L’histogramme comme estimation de densité 


L’histogramme dont l’origine est attribuée à John Graunt au XVII siècle 
répondait à l’objectif d’une représentation de la distribution de valeurs et, à ce 
titre, peut être considéré comme une estimation de densité avant l’heure. C’est 
sous cet angle que nous allons l’étudier même si son intérêt réside souvent 
plutôt dans l'estimation de pourcentages dans des intervalles (ou «classes») 
bien déterminés (par exemple les classes d’âge des statistiques officielles). 


Dans sa plus grande généralité un histogramme se définit à partir d’une 
suite double de valeurs croissantes {...,@_;,...,@_1,@0,@1,...,@;,...} consti- 
tuant un découpage en intervalles de la droite réelle. Soit ny la fréquence des 
observations situées dans l'intervalle ]az, ax+1] pour un échantillon de taille n, 
alors l’histogramme est la fonction constante par morceaux fa telle que, pour 
tout k E Z : 

nr 


fn(t) = —1—— pour x EJa, ax], 
(ak+1 — @k) 
conduisant à la représentation graphique classique en rectangles (obtenue en 
délimitant verticalement les intervalles). La fréquence relative n;/n estimant 
la probabilité (ou la proportion, dans une population) p4 associée à l’intervalle 
Jar, ax+1] y est divisée par la largeur ax+1 — ax de cet intervalle ce qui a bien 
valeur de densité de probabilité au sens explicité en section 1.4. 


Sauf exception on choisit une «grille» de découpage {az} régulière et soit, 
alors, h la largeur de chaque intervalle. On a : 


(x) = ns pour & € ar, ax+1]. 

Plaçons-nous maintenant dans le cadre d’un n—-échantillon aléatoire de loi 
mère de densité f continue sur tout R et étudions les propriétés d’échantillon- 
nage de la v.a. (notée simplement comme précédemment) fh(æ) = N£/nh où 
N, est le nombre aléatoire de valeurs tombant dans ]az, ax+1]|, x étant fixé dans 
cet intervalle. On a My = B(n, px), d’où : 


E(f(e) = = À 
V(És(&)) = Mn) : pe pe) | 
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Comme px = ‘hs f(x)dx, ÉE est la valeur moyenne de f sur [az, ag+1] et fh(x) 
n’est donc sans biais que pour la ou les valeurs de x dans ]az, ax+1] où f prend 
cette valeur moyenne. Nous désignons par x? l’une de ces valeurs, i.e. telle que 


J(xi) = À ne. f(x)dx = ÉE. Pour toute valeur x où f(x) diffère de f(x}, 


fa(æ) est un estimateur biaisé de f(x) dont le biais est égal à f(xx) — f(x). 


Considérons le comportement asymptotique de f,(æ). Quand n — œ le 
biais qui ne dépend pas de n ne peut tendre vers zéro. Sauf à faire tendre simul- 
tanément la largeur d'intervalle À vers zéro, auquel cas x tend nécessairement 
vers æ% et, par continuité de f, f(x) — f(x) tend donc vers zéro. Quant à la 
variance, du fait que px(1 — px)/h = (1 — px)f(x%), elle ne peut tendre vers 
zéro que si, simultanément, nh — co. En d’autres termes la largeur d’inter- 
valle doit tendre vers 0 mais de façon infiniment moins « rapide » que 1/n, par 
exemple en choisissant À = c/,/n. Puisque E(N;) = npx = nhf(x) la condi- 
tion nh — © assure que le nombre attendu de valeurs dans |ax,ax+1] tende 
vers l'infini. Concrètement cela se traduit de la façon suivante : plus n est grand 
plus il y à avantage à resserrer les intervalles mais pas trop, afin de garder de 
grandes valeurs de nx. 


Ces conditions qui assurent la convergence en moyenne quadratique - soit 
n — 00, h — 0, nh — © - restent nécessaires pour assurer d’autres modes 
de convergence, notamment en probabilité ou presque sûrement. De plus elles 
se retrouvent pour tous les types d’estimateurs fonctionnels comme nous en 
verrons des exemples plus loin. La proposition suivante, que nous admettrons, 
vient préciser la forme asymptotique de l'erreur quadratique moyenne de f, (x) 
pour x fixé. 


Proposition 8.4 (Friedman et Diaconis, 1981) En tout x où f est deux fois 
dérivable on a : 


2 h? 


eam(Ae) = À 


pu 


HONTE 


Ainsi avec les conditions n — o0,h — 0,nh — co, l’e.q.m. est asymptoti- 


quement équivalente à #°[f’(x)]? + es 


e le premier terme étant dû au biais 
(au carré) et le deuxième à la variance. L'intérêt de ce résultat est d’établir 
la vitesse de convergence de l’e.q.m. vers zéro, dans le cas où h est choisi de 
façon optimale, pour la comparer plus loin avec un estimateur plus élaboré. En 
annulant sa dérivée par rapport à h on trouve que cette dernière expression est 


minimale pour : 


= p O7) us, 178 
= ra) 


et l’e.q.m. est asymptotiquement équivalente, avec cet À optimal, à £(x}n?/3 
où k(x) dépend de f(x) et de f'(x). On dira que la vitesse de convergence de 
l'e.q.m. est en n_?/3 
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Remarques 


1. La construction de l’histogramme dépend de deux paramètres : h, la 
largeur des intervalles, et ao, la position de l’origine de la grille. En 
fait le choix de ao n’est pas crucial (et ne subsiste pas dans l’approche 
plus élaborée qui va suivre) alors que celui de h est déterminant et in- 
contournable. Notons que le résultat précédent concernant le h optimal 
n’est d’aucun secours en pratique car cette valeur dépend de f(x) et 
de f’(x) qui sont inconnus. Différentes règles empiriques, étrangères aux 
considérations asymptotiques ci-dessus, ont été proposées en statistique 
descriptive, par exemple : choisir un nombre d’intervalles sur l’étendue 
des observations égal à 4/n. 


2. Si f est discontinue aux bornes de son support (voir la loi uniforme, la 
loi exponentielle ou la loi de Pareto) les résultats développés ne sont pas 
valables en ces bornes. De plus si celles-ci sont inconnues l’histogramme 
pose problème. 


3. L’histogramme, c’est-à-dire la fonction fa est discontinu alors même 
que f est continue. On peut donc songer à le rendre continu pour, sans 
doute, améliorer son efficacité. C’est l’idée qui prévaut pour le polygone 
des fréquences (ligne brisée reliant les milieux des «plateaux» de l’histo- 
gramme) qui reste cependant peu usité. La méthode de la section suivante 
va proposer une solution plus performante. 


Les estimateurs à noyaux 


Définition L'origine de la méthode des noyaux est due à Rosenblatt (1956). 
Celui-ci à proposé une sorte d’histogramme mobile où la fenêtre de comptage 
des observations se déplace avec la valeur de x. La densité en x est estimée 
par la fréquence relative des observations dans l'intervalle [x — h,x + h|, donc 
centré sur x, divisée naturellement par la largeur de l’intervalle 2h. On appelle 
h la largeur de fenêtre (bien que cette largeur soit en fait égale à 2h). Pour des 
raisons qui apparaîtront plus loin nous écrivons l’estimation ainsi obtenue à 
partir des observations æ1,%2,:-: ,%, sous la forme suivante (conservant encore 
la même notation În) : 


En effet x; € [r — h,x + h] si et seulement si = € [-1,+1] et x; est alors 
comptabilisé 1/2. Ainsi 37°, K (54) est égal au nombre d'observations tom- 
bant dans [x — h,x + h] divisé par 2 pour obtenir la division de la fréquence 


relative par 2h. Comme K est discontinue en +1, fa(x) présente des petits 
sauts de discontinuité aux points æ1 + h,x2 + h,...,2, + h. Parzen (1962) a 
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proposé une généralisation de l’idée de Rosenblatt permettant, entre autres, 
de lisser davantage l’estimation. À la fonction X ci-dessus on substitue une 
fonction que l’on pourra choisir continue ou dérivable partout, propriété qui 
se transfère à la fonction f,. En d’autres termes on fera entrer ou sortir les 
points æ; «en douceur» quand on déplace la fenêtre. Toutefois la fonction K 
est soumise aux conditions suivantes : 

— K est positive (ou nulle) 

— K À paire 

: Jean u)du = 1. 
Une telle Ne est alors appelée noyau. La première condition garantit que 
le poids K (2%) de chaque observation x; reste positif ou nul, la deuxième 
que ce poids soit identique de part et d’autre de x. La troisième condition est 
une normalisation des poids de façon que f, soit bien une densité. En effet, 
avec le changement de variable u = + on obtient : 


face RE fr ( “) dr = FD rt =HDiet 


Notons qu’une fonction noyau est, en fait, une fonction de densité symétrique 
autour de zéro, donc de moyenne nulle (si elle existe). 


T T — L; 1 
— L = d = — 
= LK( h }ar x [ Kcodu 


on peut donner une interprétation concrète de a Supposons, pour fixer les 
idées, que Æ ait pour support [—1,+1]. Alors f, est obtenue en remplaçant 
chaque observation +; par une même petite «densité» (son aire étant réduite à 
1) de support [x;—h,x;+h], puis en sommant ces petites densités. Cette vision 
correspond à un principe général de lissage de données discrètes qui consiste à 
faire «bouger» chaque donnée pour lui substituer un élément continu. 


Comme : 


En pratique on impose comme condition supplémentaire que K décroisse 
de part et d’autre de zéro, dans l’idée naturelle de donner un poids plus faible 
aux observations au fur et à mesure qu’elles s’éloignent du centre de la fenêtre 
æ. Aïnsi les noyaux les plus usuels sont : 


1 
K{(u) = : siu€[-1,1] noyau de Rosenblatt 
K{u) =1-—|u| siu€[-1,1] noyau triangulaire 
3 
K(u) = au — uw?) siu€[-1,1] noyau d'Epanechnikov 
15 
K(u) = TAC — w) siu€[-1,1] noyau de Tukey ou biweight 
1 
K(u) = —— exp(—=u?) uEeR noyau gaussien. 
V2T 


186 Statistique — La théorie et ses applications 


Les deux premiers ont l’avantage d’être simples, le noyau triangulaire étant 
continu partout et conduisant à une estimation f, continue. Le troisième doit 
sa notoriété à une propriété d’optimalité théorique mais sans grand intérêt pra- 
tique (voir plus loin le paragraphe «choix pratiques»). Le quatrième est, à notre 
sens, le plus intéressant car donnant une estimation dérivable partout, tout en 
étant simple à mettre en oeuvre. En fait il s’agit du noyau le plus simple parmi 
les noyaux de forme polynomiale dérivables partout. Ainsi il assure le lissage 
local de la fonction f,. Ce noyau est d’une forme très proche du noyau gaus- 
sien et est donc préférable, ce dernier ayant un coût de calcul plus élevé du fait 
de son support infini (la «largeur de fenêtre» h devenant conventionnellement 
l’écart-type de la loi de Gauss). Notons que plus la valeur de À est élevée plus 
on élargit la fenêtre, ce qui a un effet de lissage global de fa plus important. 
Ceci est à rapprocher du choix de la largeur des intervalles pour l’histogramme. 


Note 8.5 Le choix du type de noyau étant fixé, seul reste à effectuer le choix de 
k que nous envisagerons plus loin. Le problème du positionnement de la grille 
de l’histogramme (choix de ao) n’existe pas ici. Pour ce dernier on peut aussi 
s'affranchir de ce choix en prenant la moyenne, en continu, des estimations 
obtenues par glissement continu de la grille de ao quelconque à ao + h. On 
obtient alors l’estimateur à noyau triangulaire (voir exercices). 


Propriétés asymptotiques des estimateurs à noyaux Il existe peu de 
résultats à n fini et l’on doit se satisfaire de résultats asymptotiques. Reprenons 
l'expression générale d’un estimateur à noyau pour un échantillon aléatoire 
X1,X0,.. À : 


nn 1 Us TX — X; 
nt) = — K ; 
AO = DE (TA) 
Pour calculer le biais et la variance en un point x fixé posons : 


1 x — X; 
Z3 = —K 2 |. 


Aiïnsi la variable aléatoire fa(x) est la moyenne des Z; qui, en tant que fonctions 
respectives des X;, sont des variables aléatoires i.i.d.. Soit Z = 1K (#*) la 
v.a. symbolisant la loi commune aux Z; comme X symbolise la loi mère des X,; 


de densité f. 
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Calcul du biais 


On a : 


- rs) f(t)dt 


k JR 
T—t 
= [ KGof(e + uhdu en pOSant u = —— . 
R 


Comme /, K(u)du = 1 le biais peut s’écrire : 


E(fn(x)) — f(x) = ONE +uh) — f(x)ldu . 


On voit que le biais résulte de l’écart de la valeur de la densité dans la fenêtre 
centrée sur æ par rapport à sa valeur en æ même. Si f était constante dans la 
fenêtre le biais serait nul, et de même si f était parfaitement linéaire en raison 
de la parité du noyau K. Comme pour l’histogramme le biais ne dépend pas 
de la taille de l'échantillon et ne peut être réduit à zéro qu’en faisant tendre h 
vers zéro. Prenons un développement de Taylor de f au voisinage de x : 


2p2 


f(x +uh) = f(x) +uhf'(x) + CL 


Se) + of?) : 


Le biais s'écrit : 


= 


EGP (a) — fe) = fe) | uktodu + "(0 [2 K (du + oût) 


= . f(x) jL u2K(u)du + o(h?) 


puisque K est paire. Pour À petit le biais dépend donc de f”(x) et du moment 
d'ordre 2 du noyau. Le biais est du signe de f”(x) : si f est concave en x le 
biais est négatif, si elle est convexe le biais est positif. En particulier si x est 
un point où f est à un maximum le biais sera négatif. On sous-estime donc (en 
moyenne) la hauteur du maximum, ce que l’on peut comprendre intuitivement : 
la densité au voisinage de x étant plus faible il y a nécessairement un déficit de 
points dans la fenêtre. A l’inverse les minima éventuels seront surestimés. Par 
conséquent la méthode tend à écrêter les creux et les pics de la densité ce qui 
est un inconvénient majeur. 


Calcul de la variance 


On a : 
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avec : 
2 
EC = [le] ro 
= _ Î [K(u)|? f(x + uh)du (en posant u = —) 
et : 


LIECG) #-2|{xt) fe + ua] | 


Alors que le terme 2[E(Z)]? tend bien vers zéro quand n — œ on voit que 


le terme LE (7?) ne tend vers zéro que si nh — 00. Par conséquent, pour que 
fn(x) converge vers f(x) en moyenne quadratique les mêmes conditions sont 
nécessaires que pour l’histogramme : n — 00, h — 0,nh — co. 


Le terme 2[E(Z)P est d'ordre 1, ce que l’on note O(). En utilisant le 
développement de Taylor : f(x +uh) = f(x) +uhf'(x) + o(h), on obtient : 


REZ) = SG) J RGO de + 0). 
d’où 
VO (= ESC) f KG du + 0): 
Finalement l’erreur quadratique moyenne en x fixé est : 
= 4 : a 2 
ann) = RUE | fe Kçodu) + 2 ft CP du 


o(h4) +00) 


Faisant abstraction des termes o(h*) + O(L) négligeables dans les conditions 
de convergence, on voit que plus la largeur de fenêtre À est faible plus le biais 
diminue mais plus la variance augmente et, inversement, l’élargissement de la 
fenêtre augmente le biais et diminue la variance. Il existe un optimum (mais 
valable uniquement pour le point +) qui, comme pour l’histogramme, est obtenu 
en dérivant par rapport à h, soit : 


mer 


opt — nm 


[f(x RTE —. ir 


et, en substituant h,+ dans la formule de l’expression asymptotique de l’e.q.m., 
celle-ci prend la forme k(x)v(K)n-4/5 où v(K) est une expression qui ne 
dépend que du choix du noyau et k(x) est fonction de f(x) et de f”(x). Ainsi 


1/5 
—1/5 
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la convergence est plus rapide que pour l’histogramme, étant d'ordre n—4/5 


lieu de n_2/3. 


au 


Jusqu’à présent nous avons raisonné à x fixé. Il est clair que ce qui nous 
intéresse est de connaître le comportement de l’estimateur f, de la fonction f 
globalement sur tout R. Pour cela on considère, pour une réalisation donnée, son 
écart à f intégré sur tout R ce qui conduit, en prenant l’espérance mathématique 
de cet écart intégré, au critère d'erreur quadratique intégrée moyenne (e.q.i.m. 
ou MISE en anglais : mean integrated square error) : 


aim) =E(f [Fra] &). 


Celle-ci se calcule aisément à partir des résultats précédents car, étant donné 
les conditions de régularité imposées à f et à K, il est licite d’intervertir 
les intégrations (l’une explicite, l’autre implicite dans le calcul de l’espérance 
mathématique) ce qui conduit à intégrer l'expression de l’e.q.m. en x fixé : 


cam) = | ([te) = ra]) ax = [em taper 


Comme précédemment on trouve un À optimal qui est en n-!/5 et une e.q.i.m. 


de la forme g(f")v(K)n-4/5. Le même critère aurait pu être appliqué à l’his- 
togramme, la vitesse de convergence étant également conservée en n7?/5. 


Ainsi, en tant qu’estimateur fonctionnel un estimateur à noyau converge 
plus vite vers la vraie densité f que l’histogramme. Mais ce résultat repose sur 
un choix optimal très théorique (puisque dépendant de l’inconnue f”’) et de 
conditions de convergence artificielles. C’est pourquoi nous considérons main- 
tenant les aspects pratiques. 


Choix pratiques Le praticien doit effectuer deux choix : celui du noyau K 
et celui de la fenêtre h. 


Le choix de K s’avère être relativement indifférent pour ce qui concerne le 
critère de l’e.q.i.m. Ceci a pu être constaté par calcul direct ou par simulation 
sur une grande variété de lois mères et est d’ailleurs confirmé sur l'expression 
asymptotique ci-dessus. En effet la valeur minimale de v(K) est atteinte avec le 
noyau d’'Epanechnikov. Cette valeur est 0,349 alors qu’elle est égale à 0,351 pour 
le biweight et 0,369 pour le noyau de Rosenblatt (voir exercices). Par conséquent 
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le biweight (noyau de Tukey) doit être recommandé pour son avantage de lissage 
local évoqué plus haut. 


Reste le choix difficile de k pour lequel diverses méthodes ont été proposées, 
aucune ne donnant satisfaction de façon universelle. Sans aborder dans le détail 
ce vaste sujet mentionnons trois approches. 


Deheuvels (1977) a suggéré de prendre la valeur optimale vue ci-dessus : 
m(f")v(K)n7%5, en calculant m(f”) sur f gaussienne. Toutefois on n’échappe 
pas à l’estimation de la variance © de la loi de Gauss que l’on effectue naturel- 
lement par la variance empirique. 


Une deuxième approche dérivée d’une procédure de type rééchantillonnage 
dite de validation croisée a été étudiée initialement par Marron (1987) et est 
souvent adoptée par les logiciels, car de portée plus générale. Elle consiste à 
choisir la valeur de À qui maximise l’expression : 


nm 


II ai (æs) 


i=1 


où ns est l'estimation de densité effectuée avec une valeur h en omettant 
la i-ème observation. On maximise ainsi globalement les densités attribuées 
aux observations æ; à la manière du maximum de vraisemblance. Pour que 
l'évaluation en x; ne soit pas influencée par la valeur de x; elle-même, on 
élimine celle-ci du calcul. 


Pour notre part nous proposons de choisir, avec le noyau biweight : 


h = 0,75 minfr(4) — t()] Ci 


Ceci résulte du fait que, pour une diversité de lois et pour n = 100, la valeur 
optimale reste proche de 0,75 fois la largeur de l’intervalle de probabilité 0,5 
autour du mode. Cette méthode est simple à mettre en oeuvre et effectue 
généralement un lissage adéquat (voir Lejeune, 1982). 


La plupart des propositions de choix de h reposent sur l’optimisation de 
l’e.q.i.m. (ou sur l’un des critères mentionnés plus loin, mais aucun n’est la 
panacée) et, par expérience, on constate souvent qu’elles ne fournissent pas 
nécessairement une estimation graphiquement satisfaisante, laissant subsister 
des variations locales (tendance à sous-lisser). La méthode la plus sûre reste 
donc celle des essais et erreurs où, partant d’une valeur de toute évidence 
trop faible de h donnant des fluctuations locales indésirables, on augmente 
progressivement cette valeur jusqu’au seuil de disparition de telles fluctuations. 


Par calcul direct ou par simulation on constate que, même pour d’assez 
grands échantillons, la valeur de À effectivement optimale (au sens de l’e.q.i.m. 
mais aussi d’autres critères d’erreur) reste étonnamment élevée. Ainsi en pre- 
nant, simplement à titre indicatif, une loi mère N/(0 ; 1) la valeur de } optimale 
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est de 1,11 pour n = 100 et vaut encore 0,70 pour n = 1000. Ceci restreint 
fortement la validité des expressions asymptotiques établies avec h tendant vers 
zéro. De plus avec un tel choix il faut s’attendre à un écrêtement non négligeable 
des extrema de la densité. 


Même si les expressions asymptotiques sont à prendre avec précaution, elles 
permettent de vérifier sur diverses lois que la méthode des noyaux, outre le 
fait qu’elle peut donner une estimation lisse, est nettement plus efficace, au 
sens de l’e.q.i.m., que l’histogramme. En se plaçant, par exemple, aux valeurs 
respectives optimales de À avec n = 100, pour une loi mère W(0:;1), l’e.q.i.m. 
asymptotique de l’histogramme est 2,5 fois plus élevée que celle obtenue par 
noyau biweight. Lorsque n s'accroît ce rapport augmente, ce qui correspond 
aux différences de vitesses de convergence : pour n = 1000 il vaut 3,4 (voir 
exercices). 


Remarques diverses On a vu que le biais était de nature à écrêter les 
extrema de f ce qui est particulièrement fâcheux s’agissant de points carac- 
téristiques de la densité (dont son ou ses modes). On peut réduire le biais, et 
notamment ce phénomène, en relâchant la contrainte de positivité du noyau. 


En effet en choisissant un noyau X tel que f,, u? K(u)du = 0 on élimine, dans 
l'expression asymptotique du biais le terme en h? : RE) fu K(u)du. En 
poursuivant le développement de Taylor jusqu’à l’ordre 4 l'expression asymp- 
totique du biais devient #7 f(4(x) [. uK(u)du + o(h4) où f(® est la dérivée à 
l’ordre 4 de f. Aïnsi, si f reste proche d’un polynôme du deuxième ou troisième 
degré au voisinage de x, le biais sera pratiquement réduit à zéro, ce qui per- 
met de mieux coller aux extrema. Un noyau vérifiant f, u?K(u)du = 0 (et par 
la parité, forcément /, u*K{(u)du = 0) est appelé noyau d'ordre 4. Le noyau 
d'ordre 4 dérivable partout de type polynomial le plus simple est : 

105 212 2 ; : 
K{(u) = at —u*)" (1—3u*) siue[-1,1] (0 sinon), 
qui est une modification du biweight et dont la figure 8.1 montre qu’il a des 
plages négatives sur les extrémités. Ce faisant la variance est accrue par rapport 
au biweight, mais cet accroissement est largement compensé par la diminution 
du biais pour le critère d’e.q.i.m. (à titre d'exemple, pour une loi W(0; 1) le gain 
global est de l’ordre de 25% avec des largeurs de fenêtre autour de l’optimum). 


Toutefois le prix à payer pour réduire le biais est le fait que A n’est 
plus nécessairement positive ou nulle. Étant donné le faible poids des plages 
négatives dans le noyau (voir figure 8.1) il s’agira d’effets de bord : les zones 
négatives de fa seront limitées aux extrémités, où les observations se font rares, 
et seront de très faible ampleur. Néanmoins on sera contraint de «rectifier » fn 
sur ces bords. En raison de cet inconvénient, même marginal, le noyau d'ordre 4 
n’a pas le succès qu’il mériterait pourtant. La figure 8.2 est un exemple obtenu 
avec le noyau proposé ci-dessus. 
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K()= (Lu (1-42) 


Figure 8.1 - Noyau d'ordre 4 dérivé du biweight 


Comme nous l’avons déjà indiqué d’autres critères d’erreur que l'erreur 
quadratique intégrée ont été étudiés, notamment : 


l 


sup 
HA 


= 


fa(a) — (@)| dr 
fa(a) — f(a)| 


dont on a montré la convergence en probabilité vers zéro avec le même type 
de conditions que précédemment (citons à ce propos les travaux de Devroye et 
Gyürfi, 1985). 


D'autres approches que la méthode des noyaux ont été proposées : séries 
orthogonales, splines, maximum de vraisemblance pénalisé, plus proches voi- 
sins (nearest neighbour), ondelettes, etc. Globalement on peut dire qu’elles 
ne donnent pas des résultats significativement meilleurs que la méthode des 
noyaux. Aucune ne peut se soustraire à l'incontournable problème du choix 
d’un paramètre de lissage, explicite ou non. 


8.5.3 L’estimation de la fonction de répartition 


La démarche que nous allons suivre est calquée sur celle de la densité. 
Partant de la solution classique de la statistique descriptive, à savoir la fonction 
de répartition empirique, nous étudierons les possibilités de lissage en vue d’une 
amélioration. 
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Figure 8.2 - Estimation par noyau : données de taux de cholestérol de 3 200 
hommes (source : projet FNRS-Suisse sur la prévention des maladies cardio- 
vasculaires) 


Modèle gaussien 


350 400 


La fonction de répartition empirique 


Rappelons sa définition donnée en section 5.7 : 
( ) n S E ( ) 
nm O0 ,T îi 1 
Fh(x) = " x] X;) pour tout re R 


Où 1(_ x] est la fonction indicatrice de l’intervalle (—0o, x]. Pour une réalisation 
%1,%2,...,Tn, Cest une fonction en escalier s’élevant de 1/n à chaque ren- 
contre d’une valeur x;. Pour x fixé on à vu que la statistique nF,(x) suit 
une loi binomiale B(n, F(x)). Pour n grand, par l’approximation gaussienne 
d’une binomiale (voir section 5.8.3), nF,(x) suit approximativement une loi 
N(nF(x),nF(x)(1-— F(x))) et on a donc : 


Pi SN (rc FC F0) 


approx n 


Les deux paramètres de cette loi de Gauss correspondent à la moyenne et la 
variance de F,(x). Pour x fixé, F,(x) est donc un estimateur sans biais et 
convergent de F(x). Notons que F,(x) est la moyenne d’une suite de variables 
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aléatoires i.i.d. 1(_+ (Xi) (elles sont indépendantes comme fonctions respec- 
tives des X;) toutes issues de la loi de Bernoulli de paramètre p = F(x). Aïnsi 
la loi des grands nombres (théorème 5.3) s'applique et F,(x) converge aussi 
presque sûrement vers F(x). L’approximation gaussienne ci-dessus permet de 
construire un intervalle de confiance approché sur le modèle de celui de la 
section 7.4.5 pour le paramètre p d’une loi de Bernoulli. 


Dans cette section nous nous intéressons aux propriétés de F, en tant qu’es- 
timateur fonctionnel de F. La première proposition qui suit a déjà été men- 
tionnée plus haut dans le cadre du rééchantillonnage (section 8.4). 


Proposition 8.5 La fonction de répartition F, est l’estimateur fonctionnel du 
maximum de vraisemblance pour F. 


Cette proposition démontrée par Kiefer et Wolfowitz (1956) mérite d’être 
commentée dans la mesure où, jusqu’à présent, l’estimateur du maximum de 
vraisemblance (EMV) n’a été défini que dans le cadre paramétrique (définition 
6.11). Le principe reste le même : il s’agit de donner aux valeurs observées 
T1,22,*-: ,Zn la plus forte densité ou fonction de probabilité. Dans le cas 
continu on doit rechercher pour quelle fonction F l'expression de la fonction de 
vraisemblance de F : L(F) = IT;_, F'(x;), est maximisée. Pour une loi discrète 
F'(x;) doit être remplacé par F(x;) — F(x; ) correspondant à la fonction de 
probabilité en x; (voir section 1.3). En fait on à avantage à rester dans la plus 
grande généralité, n’ayant aucun à priori sur la nature de la loi et considérant 
une maximisation sur l’ensemble F des fonctions de répartition englobant le cas 
discret, continu ou mixte. F est donc l’ensemble des fonctions répondant aux 
conditions nécessaires et suffisantes d’une fonction de répartition (croissance 
sur R de 0 à 1, continuité à droite en chaque point). Cette approche générale 
nécessite des connaissances au-delà du niveau de cet ouvrage et nous admet- 
trons donc que la solution du problème de maximisation sur F est F,. L'intérêt 
d’en rester à une approche générale tient au fait qu’une solution simple existe 
(si l’on met une contrainte de continuité pour F le problème devient difficile) 
et qu’elle est naturelle dans la mesure où il s’ensuit que l’'EMV de toute ca- 
ractéristique de la loi mère s’exprimant comme une espérance mathématique 
d’une fonction g(X) devient alors 2577, g(Xi), le cas le plus simple étant 


nm 


celui de la moyenne y dont l'EMV est X (voir note 8.2). 


Les propriétés de F,(x) pour x fixé ont été établies, notamment la conver- 
gence vers F(x). Le théorème suivant (que nous admettrons) est essentiel car 
il montre la convergence uniforme, pour tout x € R, de F, vers F. 


Théorème 8.1 {Glivenko-Cantelli) Soit un échantillon aléatoire X1, X2,..., 
Xn issu de la loi de fonction de répartition F et F, sa fonction de répartition 
empirique. Alors, quand n — co : 


sup |F,(x) — F(x)| 25 0. 
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Pour voir les choses concrètement, ce théorème nous dit que l’on peut être 
assuré que l'écart maximal entre F, et F va tendre vers 0 si l’on augmente la 
taille de l’échantillon à l'infini ou encore que partout, simultanément, la fonction 
de répartition empirique va se rapprocher de la vraie fonction de répartition. 
De plus, le théorème suivant donne le comportement asymptotique de l'écart 
maximal entre F, et F 


Théorème 8.2 {Kolmogorov-Smirnov) Soit la variable aléatoire : 


D = sup{F,(x) — F(x)|. 


zER 
Alors, pour x > 0, on a : 
P(VRD, <a) — 1-29 (1) te 2), 
k=1 


En d’autres termes /nD, tend en loi vers une v.a. à valeurs positives (car 
D, est nécessairement positive) de fonction de répartition G{x) égale à l’ex- 
pression limite ci-dessus, laquelle ne dépend pas de F. En fait même pour n fini 
la loi de D, ne dépend pas de F'et, de ce fait, elle a été tabulée. A partir 
de n = 40 l’approximation par G(x) est correcte à 107? près. 


Ce résultat permet de donner une bande de confiance approchée pour F. 
En effet, soit 90,95 le quantile d’ordre 0,95 de G{x), on a : 


P(Vnsup|Fn(z) Æ F(x)| < 5) T 0,95. 
xE 


Mais l'événement (/nsup,er |Fn(x) — F(x)| < g,,,) équivaut à l'événement 
(VF (x) — F(x)| < goss]; pour tout x) 


OU : 


(FA (x) — = < F(x) < F,(&) + = 


On à donc une procédure qui garantit, a priori avec une probabilité 0,95, que 


, pour tout x). 


F(x), pour tout x, soit compris dans l'intervalle : 


F, (x) + ee 
Pour une réalisation, la bande autour de F, ainsi dessinée sera une région de 
confiance à 95% approchée pour F. On peut même établir une bande exacte 
en lisant dans une table le quantile 0,95 de la loi exacte de D,. À partir de 
n = 40 on peut utiliser l'expression asymptotique qui peut se réduire, disons 
si æ >0,8, pratiquement à 1 — 2e—2* en ne gardant que le premier terme de 
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la somme. Aïnsi g,,, est approximativement défini par la valeur de x telle que 


1-26 2 = 0,95 soit x = 1,36. Pour n assez grand la bande de confiance à 95 
% est donc FE, (x) mn NS 

Le théorème 8.2 trouvera plus loin une application très répandue pour tester 
un modèle de loi (voir le test de Kolmogorov-Smirnov en section 10.4.1). 


Lissage de F, 


Nous envisageons maintenant le lissage de F,, pour le cas où l’on sait pouvoir 
se restreindre à une fonction de répartition dérivable jusqu’à un certain ordre. Il 
existe, comme pour la densité, une série de solutions, mais nous ne présenterons 
que celle qui fait le pendant de l’estimateur à noyau de la densité. 


Considérons l’estimation de F obtenue en intégrant l'estimation par noyau 
de la densité f : 


TS NTE t—%; 
= — K dt 
a Le) 
UN TE _ % 
=> / À K (v) du me ue 
M 31 0 h 


alors on a : 


Ê,(e) = DL (==) | 


Comme K{u) était de la forme d’une fonction de densité, H(u) est de la forme 
d’une fonction de répartition. 


Pour voir l’analogie avec la fonction de répartition empirique F,, rappelons 
que F,(x) est la moyenne des indicatrices 1(_x1(œ). Or : 


T — ZT; Osir < t; 
I-00,21 (0) = 1-00, (ri — 2) = 10,407 — =) = { à 
F, est donc de la forme de F, (x), avec une fonction H(u) très particulière, 
donnant le saut brutal de 0 à 1 en u = 0. L’apport d’une fonction plus souple 
répond au même principe général de lissage que celui évoqué pour la densité, 


Chapitre 8. Estimation non paramétrique et estimation fonctionnelle 197 


à savoir qu’on effectue un passage de 0 à 1 en douceur, étalé entre x; — h et 
zi + h autour de x. On remarquera que du fait que H est une primitive de K 
elle est continue et F, est donc également continue. 


Par intégration du noyau de Rosenblatt, le plus simple, et de celui de Tukey 
préconisé pour la densité, on obtient : 


(0) si u < —1 
Hi(u)= 4 j(u+1) si -1<u<+1 (Rosenblatt intégré) 
1 si +1<u 
0 si u < —1 
Ho(u) = 4 (8+15u—10u+3u5) si —1<u<+1 (Tukey intégré). 
1 si +1<u 


Lorsqu'on examine le graphe obtenu avec différents noyaux on constate que la 
différence est imperceptible. Ceci s'explique par le fait que l’estimation d’une 
fonction de répartition est fortement contrainte par la condition de croissance 
de 0 à 1, et par sa continuité. De ce fait le problème est beaucoup plus simple 
que pour la densité. En particulier la croissance implique de faibles courbures 
et donc peu ou pas de problème de biais, contrairement à la densité. Il n’y a 
donc pas d'avantage tangible à utiliser des noyaux ou autres instruments de 
lissage sophistiqués et nous préconisons donc l’emploi du noyau H:. Notons 
bien, toutefois, que les estimations de densités obtenues par dérivation seront, 
quant à elles, très sensibles aux variations jugées mineures pour la fonction 
de répartition. Malgré ce constat il n’est pas inutile d'examiner le biais et la 
variance, de façon asymptotique, comme cela a été fait pour la densité. 


Biais et variance On démontre les résultats suivants (voir Lejeune et Sarda, 
1992) par des développements similaires à ceux de la densité. Pour un noyau 
K symétrique de support [-1,+1] on a, en x fixé : 


E(Bs(e)) — Fe) = %f'(e) [ut K(adu + ol), 


1 +1 


V(Ës()) = À {Ft = F(a)] + hf (a) | 


n 


H?(u)du — 1 + oûn)} 


—1 


Alors que la fonction de répartition empirique F, est sans biais, le lissage 
ne peut éviter d'introduire un certain biais. Les simulations à n fini montrent 
toutefois que ce biais reste très faible. En particulier on voit sur l’expression 
asymptotique qu’à o(h?) près il s’annule aux extrema de la densité (donc aux 
modes) qui correspondent à des points d’inflexion pour F. Pour la variance 
on retrouve dans le premier terme de son expression asymptotique la variance 
de F,. Par conséquent on gagne sur la variance de F, si le deuxième terme 
est négatif, soit ie H?(u)du < 1, ce qui est vérifié pour les noyaux intégrés 


198 Statistique — La théorie et ses applications 


courants. Dans le cas du noyau de Rosenblatt f H?(u)du = à; la variance 
décroît donc de À f(x) et le biais vaut RE f(x) (à o(h?) près). Pour ce qui 
concerne l'erreur quadratique moyenne elle sera améliorée si la diminution de 
variance compense le biais au carré. Pour estimer, par exemple, le mode d’une 
loi qui serait une loi de Gauss, il n’y a pas de biais en raison de la symétrie en 
ce point et la variance diminue de 15 %. 


Ici comme pour la densité se pose le problème de la largeur de fenêtre 
optimale. Il est toutefois moins crucial en raison de la plus faible sensibilité de 
l'estimation à ce paramètre de lissage. 


= 


Note 8.6 On peut penser que l'estimation d’une caractéristique w(F) par w(F,) 
puisse être meilleure que la simple version empirique w(F,). Encore faut-il choi- 
sir une valeur de À appropriée (la valeur optimale pour ce problème étant alors 
généralement plus faible qu'avec l’objectif de minimisation de l'erreur quadratique 
intégrée moyenne). Par ailleurs on à avantage à utiliser une version «rétrécie» de F} 


qui conserve la variance empirique s?. Elle s’obtient en remplaçant + par 4/1 + he GE 


dans l’expression de F, (x). Silverman (1987) montre que pour la plupart des lois, le 
moment simple d’ordre 6 est mieux estimé par une version lisse, alors que l'amélioration 
n’est pas systématique pour les moments d’ordres inférieurs. 


Pour approfondir l'estimation fonctionnelle on pourra consulter l’ouvrage 
méthodologique très complet de Simonoff (1996) ou, pour les aspects mathé- 
matiques, celui de Bosq et Lecoutre (1987). 


8.6 Exercices 


Exercice 8.1 Générer 200 observations de loi lognormale LW(0;1) (aide : 
dans un tableur du type EXCEL générer 200 observations de loi W(0;1) et les 
transformer par e*). 

Donner une estimation ponctuelle et par intervalle pour la médiane de la loi. 
L’intervalle contient-il la vraie valeur ? Recommencer pour estimer le quantile 
d'ordre 0,90. 


Exercice 8.2 (Adapté de Mosteller et Tukey, 1977) Soit les valeurs 0,1 0,1 0,1 
0,1 0,4 0,5 1,0 1,1 1,3 1,9 1,9 4,7. Donner une estimation du jackknife de l’écart- 
type de la loi mère ayant généré ces observations, fondée sur la statistique S. 
Donner un intervalle de confiance pour cet écart-type. 


Exercice 8.3 Montrer que les pseudo-valeurs du jackknife fondées sur la va- 
riance empirique 5% sont —Æ-(X; — X)?,i=1,...,n. 
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Exercice 8.4 Vérifier que l’estimateur du jackknife appliqué à la moyenne 
empirique redonne la moyenne empirique. Quelles sont les pseudo-valeurs ? 


Exercice 8.5 * Dans les notations de la section 8.5.2 concernant l’histogramme, 
écrire l’estimation fa ) sous la forme d’une somme d’indicatrices. Dans le cas 
d’une grille régulière {az} de largeur d'intervalle h, déterminer fat) pour un 
déplacement de la grille {ax +t} où t > 0 et t < h. Calculer la valeur moyenne 
de f(x) quand t varie de 0 à h. Montrer qu’on obtient ainsi une estimation 
par noyau triangulaire (voir note 8.5). 


Exercice 8.6 Dans un tableur du type EXCEL générer 50 observations de loi 
N(0;1). Estimer f(0) par un noyau biweight avec h = 1. Comparer à la vraie 
valeur. Recommencer la procédure plusieurs fois pour confirmer le type de biais 
en présence. 


Exercice 8.7 Dans un tableur du type EXCEL générer 50 observations de loi 
N(0;1). Estimer f(0) par un noyau biweight avec h = 0,5; 0,75; 1; 1,25; 1,5 
pour apprécier la variabilité des estimations ainsi obtenues. 

Quelle est la valeur de h asymptotiquement optimale ? 


Exercice 8.8 Dans l’expression asymptotique avec h optimal de l'erreur qua- 
dratique intégrée moyenne de l’estimateur à noyau de la densité, déterminer 
l'expression v(K) qui ne dépend que du noyau. Calculer et comparer v(K) 
pour le noyau d’Epanechnikov, le noyau de Rosenblatt et le noyau de Tukey. 


Exercice 8.9 À partir de l’expression asymptotique de l’erreur quadratique 
intégrée moyenne de l’estimateur à noyau de la densité établir, dans le cas du 
noyau de Tukey et pour une loi mère (y, o?), que la valeur de À optimale est 
hopt 2,78 a n_1/5 et que l’e.q.i.m. correspondante est environ 0,321 0 1n—4/5 
(aide : on utilisera l'expression de how établie à l'exercice précédent et les 
valeurs numériques utiles concernant le noyau biweïight. Par ailleurs on peut 
établir que f,[f”(x)]?dx = a. pour la loi de Gauss). 


Montrer de même pour l’histogramme que la valeur optimale de h donnée 
par la formule asymptotique est d’environ 3,49 on!/% avec une e.q.i.m. cor- 
respondante de 0,430 o-1n72/3 (aide : on DIRE comme e.q.i.m. FÉDEPAOE 


intégrée de l’e. . m. U la DEA Sue 8.4, soit À SRE Pax + L. On peut 


0 


établir que l?dx = pour la loi de Re 
rlf ze 


Exercice 8.10 *Établir la formule du biais pour E, (x), estimateur à noyau 
intégré de F': 
E(Pa(x)) — F(x) = E f'(œ) Je u2K(u)du + o(h?) 
Aide : utiliser une intégration par partie pour introduire K. 


Chapitre 9 


Tests d’hypothèses 
paramétriques 


9.1 Introduction 


Les tests statistiques constituent une approche décisionnelle de la statistique 
inférentielle. Un tel test a pour objet de décider sur la base d’un échantillon si 
une caractéristique de la loi mère (ou de la population) répond ou non à une 
certaine spécification que l’on appelle hypothèse, par exemple : la moyenne de la 
loi est supérieure à 10. Ces spécifications peuvent avoir diverses provenances : 
normes imposées, affirmations faites par un tiers (par exemple le fabricant d’un 
produit), valeurs cruciales de paramètres de modèles, etc. 


Dans le cadre paramétrique où nous nous situerons initialement, les hy- 
pothèses portent sur le paramètre inconnu 0 ou sur une fonction de ce paramètre 
h(8) correspondant à une caractéristique d’intérêt de la loi. Dans le cas simple 
d’un espace paramétrique 6 € R, l'hypothèse spécifiera une valeur ou un in- 
tervalle de valeur pour @ (ou pour h(@)). Alors qu’un intervalle de confiance 
indique l’ensemble des valeurs plausibles, un test décidera si tel ensemble de 
valeurs spécifiées est plausible ou non. Bien que conceptuellement distinctes 
ces deux démarches reposent sur les mêmes bases mathématiques et de ce fait 
nous reprendrons de nombreux éléments du chapitre 7. Nous verrons d’ailleurs 
en fin de chapitre que, pour tout test, on peut établir une équivalence avec 
un intervalle de confiance. D’une façon générale il est plus facile de construire 
un test que de construire un intervalle de confiance. Aussi la multiplicité des 
tests justifiera-t-elle que nous approfondissions les problèmes d’optimalité. En 
outre on pourra utiliser la propriété d'équivalence pour définir des procédures 
d’intervalles de confiance dérivées de tests. 


Les tests statistiques permettent d'aborder une grande variété d’hypothèses 
au-delà du test d’une hypothèse portant sur un paramètre. Par exemple : la 
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comparaison de plusieurs lois (ou populations), l’existence de liens entre plu- 
sieurs variables aléatoires, l'adéquation d’un modèle, etc. C’est au chapitre 10 
que nous aborderons plus particulièrement des hypothèses de nature plus com- 
plexe, notamment dans le cadre non paramétrique. 


Redéfinissons le cadre paramétrique. La loi observée est réputée appartenir 
à une famille de lois décrite par la famille de densités de probabilité (respecti- 
vement de fonctions de probabilité) {f(x;0);0 € @}, la forme fonctionnelle f 
étant connue et seul le paramètre 0 étant inconnu. @ est l’espace paramétrique 
et il est inclus dans RŸ où k est la dimension du paramètre 0. La fonction de 
répartition est notée F(x; 0), l'échantillon est X1, X2,--:, X, et X désignera 
la v.a. symbolisant la loi mère de l'échantillon. 


Dans l’approche paramétrique la plus générale un test statistique consiste 
à décider d'accepter ou de rejeter une hypothèse spécifiant que 0 appartient à 
un ensemble de valeurs @,. Cette hypothèse de référence est appelée hypothèse 
nulle et est notée Ho. À contrario on définit l’hypothèse alternative, notée H:, 
pour laquelle 4 appartient à O1 = @ — 6, où © — 65 dénote le complémentaire 
de @5 par rapport à ©. En bref on identifiera cette situation en écrivant que 
l’on teste : 

Ho : 0€ 6 vs. H, :0€6:, 


le mot vs. étant l’abréviation du latin versus. Suivant la nature de @, et de GO: 
on distinguera trois cas : 
— hypothèse nulle simple et alternative simple où O6 = {60,41} : 
Ho :0 = VS. H, :0—-06; 

— hypothèse nulle simple et alternative multiple : 
H5 :0 = VS. H:0240 

— hypothèse multiple et alternative multiple : 
H:0€G, VS. H,:0€06:. 

Pour une hypothèse nulle ou une hypothèse alternative multiple il est sous- 
entendu qu’il y a plusieurs valeurs possibles de 9. Nous commencerons par le 
premier cas qui, s’il est en réalité peu fréquent, permet de poser simplement 
les notions essentielles et d'établir des résultats qui pourront être étendus aux 
autres situations. Dans ce chapitre, comme pour les intervalles de confiance au 
chapitre 7, nous introduirons tout d’abord la théorie générale pour présenter 
ensuite les tests paramétriques classiques. 


9.2 Test d’une hypothèse simple avec alterna- 
tive simple 


L'espace paramétrique @ ne comprend donc que deux valeurs 4 et 01, la 
valeur 46 étant la valeur spécifiée à tester, 1.e. : 


Ho :0 = 0 VS. H; :0 = 061. 
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Un test pour H, est une règle de décision fondée sur la valeur réalisée 
d’une statistique T' appelée statistique de test. Sauf exception la statistique T' 
sera à valeurs dans R, nous le supposerons implicitement. La règle est comme 
suit : 

— sit € À (une partie de R) on accepte Ho, 

- sit € À (partie complémentaire) on rejette Ho. 

La région À, qui est généralement un intervalle, sera appelée région d’ac- 
ceptation et À région de rejet. 


Une telle règle de décision recèle deux types d’erreur possibles du fait que 
la vraie valeur du paramètre est inconnue : 
— rejeter Ho alors qu’elle est vraie (i.e. 0 = 60) : erreur de première espèce, 


— accepter Ho alors qu’elle est fausse (i.e. 4 — 01) : erreur de deuxième 
espèce. 
Étant donné que la décision se fonde sur un résultat d’origine aléatoire on 
caractérisera chaque erreur par sa probabilité. En théorie de la décision une 
probabilité d’erreur est appelée risque, d’où les définitions suivantes. 


Définition 9.1 On appelle risque de première espèce la valeur à telle que : 
a = y (T € À), 
c’est-à-dire la probabilité de rejeter H4 alors qu’elle est vraie. 


Il est usuel de noter cette probabilité P(T € A|Ho) même s’il ne s’agit 
pas là d’une probabilité conditionnelle et, dorénavant, nous adopterons cette 
notation commode. Le risque de première espèce est aussi appelé en bref risque 
a. 


Définition 9.2 On appelle risque de deuxième espèce la valeur B telle 
que : 
B = Po, (T E A), 


c’est-à-dire la probabilité d'accepter H4 alors que H; est vraie. 


Ici également on notera cette probabilité P(T € A]H;) et on parlera de 
risque G. 


Les deux risques sont interdépendants puisque l’un repose sur À et l’autre 
sur son complémentaire À. Par le choix de À ou de À on peut donc vouloir 
contrôler l’un ou l’autre, mais pas les deux. Dans un test statistique on privilégie 
en fait le risque a que l’on se fixe a priori et le plus souvent on prend @ = 0,05. 
C’est pourquoi la valeur a est aussi appelée le niveau ou niveau de signification! 
du test. Ce niveau ayant été choisi il s’agit de déterminer une région de rejet À 


1Ce terme de signification est à rapprocher de la notion de test de significativité présentée 
en fin de section 9.4.2. 
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telle que, «sous Ho», la probabilité que T «tombe» dans À soit effectivement 
égale à a. On voit ainsi que la loi de la statistique de test doit être 
parfaitement connue sous H5. La construction d’un test consiste donc à 
rechercher une statistique pertinente (nous expliciterons plus loin ce que nous 
entendons par là) dont on connaît la loi sous Ho. La région de rejet étant ainsi 
déterminée, la région d’acceptation l’est aussi et donc également le risque de 
deuxième espèce 5. Il est essentiel de garder à l’esprit que dans une procédure 
de test on contrôle le risque « mais pas le risque 5. En d’autres termes, dans 
un test, on souhaite avant tout limiter à un faible niveau le risque de rejeter à 
tort la spécification Ho, se souciant moins d’accepter à tort, quand Hi est vraie, 
cette même spécification. On peut encore dire que le rejet d’une hypothèse nulle 
est une véritable décision alors que son acceptation est plutôt un défaut de rejet. 
Face, par exemple, à une spécification sur une caractéristique d’un produit, le 
fait de rejeter cette spécification est une preuve quasi irréfutable qu’elle n’est 
pas correcte, alors que le fait de l’accepter ne signifie pas qu’elle soit correcte 
mais simplement que, sur la base des observations effectuées, rien ne permet de 
conclure qu’elle soit fausse. Notons que H, et H; ne sont pas interchangeables 
car la construction du test, via le choix de &, repose sur AH, et non pas sur H. 
En particulier il n’est pas nécessaire de connaître la loi de T’ sous H, ce qui 
est d’ailleurs le cas pour la plupart des tests, y compris parmi les plus usuels. 


Nous en venons maintenant à préciser cette idée de «pertinence» de la 
statistique, tant il est vrai qu’il ne suffit évidemment pas de choisir n’importe 
quelle statistique de loi connue sous H5. Il est naturel de poser comme exigence 
que la statistique ait une plus forte propension à tomber dans la région de rejet 
quand H est la bonne hypothèse, ce que nous transcrivons mathématiquement 
par la condition que la probabilité de rejeter H, soit plus élevée sous H; que 
sous Ho, et si possible nettement plus élevée. Toute la recherche, intuitive ou 
non, d’une bonne statistique de test repose sur ce principe que nous allons 
maintenant formaliser avec la notion de puissance. 


Définition 9.3 On appelle puissance d’un test la probabilité de rejeter Ho 
alors qu’elle est effectivement fausse soit, dans les notations précédentes : 


P(T e À| Hi). 


La puissance, qui est la capacité à détecter qu’une hypothèse nulle est fausse, 
n’est rien d’autre que 1 — G puisque B, le risque de première espèce, est la 
probabilité de l’événement complémentaire également sous H;. Nous pouvons 
maintenant clairement exprimer notre exigence. 


Définition 9.4 On dit qu’un test est sans biais si sa puissance est supérieure 
ou égale à son risque &, soit : 


P(TeZA|H)>P(TEeÂ|Ho). 
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En conclusion une condition naturelle pour qu’une statistique soit éligible 
pour tester une hypothèse est qu’elle induise un test sans biais. Incidemment 
ce terme de «sans biais» n’a pas de rapport direct avec la notion de biais d’un 
estimateur. 


On entrevoit dès lors que le choix entre plusieurs tests potentiels, pour 
une hypothèse nulle donnée, se jouera sur la puissance. Avant de préciser cela 
notons qu’un test, tel que nous avons présenté les choses, est parfaitement défini 
par le couple : statistique de test et région d'acceptation (T, A), puisque @, B 
et la puissance 1 — & en découlent (même si conceptuellement le choix de a 
précède celui de À, mais pour à fixé il y a différentes façons de choisir une 
région - généralement un intervalle - de probabilité a sur la loi de T sous Ho). 


En vérité il n’est pas nécessaire de se référer à une statistique de test. En 
effet mettons en évidence la fonction de l’échantillon définissant la statistique : 
T = h(X1,X2,---,X,) et soit À l’ensemble des points de R”, réalisations de 
(X1,X2,---, Xn), défini par : 


A ={(21,%02,-.: ,tn)|A(t1,T2,-:: ,Tn) € A}. 


L'événement (T € A), que ce soit sous A9 ou sous A1, est identique à l'événement 
((X1,X2,--:, Xn) € À). Le test est donc parfaitement défini par la région d’ac- 

ceptation À dans R”. D’une façon générale un test s’identifie à une région 

d’acceptation dans l’espace des réalisations. Cette vision plus fondamen- 

tale sera parfois utile dans les développements à venir, bien que ce ne soit 

qu'une vue de l'esprit dans la mesure où une règle de décision fondée sur une 

région dans un espace à n dimensions n’est pas praticable et que tout test, 

ou presque, passe par une statistique à valeurs dans R avec une région d’ac- 

ceptation sous forme d’un intervalle. Ayant dégagé la définition d’un test nous 

pouvons aborder la comparaison de divers tests. 


Définition 9.5 On dit que le test T1 est plus puissant que le test T2 au niveau 
a s’il est de niveau à, sir est de niveau égal (ou inférieur) à a et si la puissance 
de T\ est supérieure à celle de 72. 


Il est évident que toute comparaison de puissance doit s’opérer à un même 
niveau. En effet pour tout test il y à un lien entre risque @ et puissance : en 
prenant un risque @ plus élevé on agrandit la région de rejet À et, par voie 
de conséquence, on augmente également la puissance. Notons aussi que le fait 
de comparer T1 à 7 qui serait à un risque @ plus faible est pénalisant pour ce 
dernier, mais cette éventualité aura sa raison d’être, notamment dans le cas 


discret. 


L'objectif sera finalement de rechercher le test le plus puissant parmi 
tous. Dans le cas où H, et H; sont des hypothèses simples il existe un tel test, 
mais cela n’est pas nécessairement vrai dans le cas où l’hypothèse alternative 
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est multiple. Par ailleurs, en général, quand une statistique de test donne le 
test le plus puissant à un niveau donné elle reste optimale à tout autre niveau. 


Remarques 


1. Dans le cas d’une loi discrète la statistique sera elle-même discrète et 
le niveau & choisi ne pourra être exactement atteint. Comme pour les 
intervalles de confiance, si l’on souhaite un risque de première espèce de 
0,05, par exemple, on recherchera une région À de probabilité, sous Ho, 
la plus proche possible mais inférieure à 0,05. On dira alors que l’on a un 
test conservateur. Ceci justifie, au demeurant, la comparaison de ñ à 7; 
selon la définition 9.5 à un niveau de 7; éventuellement inférieur à celui 
de T1: 


2. Les définitions ci-dessus s'appliquent à des situations d’hypothèses mul- 
tiples (et même non paramétriques) moyennant quelques précisions que 
nous donnerons en temps utile. 


3. Nous développons ici la théorie des tests telle qu’elle a été formalisée par 
J. Neyman et ES. Pearson autour de 1930. La pratique s’est aujourd’hui 
éloignée de la théorie. En particulier, le choix à priori d’un niveau a ne 
correspond pas à l’usage, sauf dans des protocoles de tests définis par 
exemple par une réglementation (notamment les tests pharmaceutiques). 
Il n'empêche que le cadre théorique classique reste indispensable pour 
élaborer les bonnes méthodes. 


4. Il est une autre exigence, outre celle de «sans biais», que l’on doit avoir 
pour une bonne procédure de test, à savoir que lorsque la taille de l’échan- 
tillon tend vers l'infini, la suite de tests correspondante {7, } soit telle que 
la puissance /, s’accroisse et tende vers 1. En d’autres termes on doit 
avoir la garantie que l’on gagne à observer de très grands échantillons, 
étant pratiquement sûr, à la limite, de détecter une hypothèse nulle qui 
serait fausse. On dit alors que la procédure de test est convergente. 


Donnons deux exemples, certes quelque peu artificiels, mais illustrant les 
notions introduites, l’un dans le cas continu, l’autre dans le cas discret. 


Exemple 9.1 Supposons que deux machines À et B produisent le même type 
de produit, mais la machine À fournit un produit plus cher de qualité supérieure. 
La qualité d’un produit se mesure à une entité aléatoire qui est de loi W(5;1) 
pour la machine A et NW(4:1) pour la machine B, et ne diffère donc que par 
la moyenne. Un client achète le produit le plus cher par lots de 10 et désire 
développer un test pour contrôler qu’un lot donné provient bien de la machine 
A. Comme accuser le producteur à tort peut avoir de graves conséquences, il 
doit limiter le risque correspondant et tester H6 : u = 5 vs. H3 : p = 4, à un 
niveau 0,05 par exemple. Il semble naturel d'utiliser comme statistique de test 
la moyenne X du lot. Sous H sa loi est W(5;1/10) et l’on a alors l'intervalle 
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de probabilité 0,95 : [5—1,96/V10; 5+1,96/V10], soit [4,38: 5,62]. D'où une 
règle de décision simple : 


- accepter Ho si la réalisation T7 (moyenne du lot considéré) de X est dans 
[4,38 ; 5,62], 


- rejeter sinon. 

Il est possible de calculer la puissance de ce test puisque la loi de X est 

connue sous A1 : c’est la loi W(4; 1/10). Le risque de deuxième espèce vaut : 

B = P(4,38 < X < 5,62| H:) 

4,38 — 4 5,62 — 4 
= pp PE e =: 

( 1/V10 1/V10 
= P(1,20 < Z < 5,12) = 0,115. 


) avec Z > NW(0;1) 


D'où une puissance d’environ 0,885. Notons que l’on peut obtenir un test 
plus puissant en prenant comme région d’acceptation l'intervalle de proba- 
bilité 0,95 :[5—1,645/V10 ; +oo[ où -1,645 est le quantile d'ordre 0,05 de la 
loi W(0;1), soit [4,48 ; +oo[ . En effet : 


4,48 — 4 
1/V10 


ce qui donne une puissance de 0,936. Intuitivement on sent bien que, dans le 
premier test, il est peu pertinent de borner la zone d'acceptation vers le haut 
car cela conduit à rejeter l'hypothèse nulle pour de très grandes valeurs de %, 
au-delà de 5,62. E 


B= P(448 < X | Hi) = P( < Z)= P(1,52 < Z) + 0,064, 


Exemple 9.2 On sait que le nombre de particules émises par une source ra- 
dioactive par unité de temps suit une loi de Poisson. Observant l’émission d’un 
corps durant 20 unités de temps on doit décider s’il s’agit d’une source de type 
À versus une source de type B. La source À émet en moyenne 0,6 particules 
par unité de temps et la source B en émet 0,8. On teste donc Ho : À =0,6 vs. 
H; : À =0,8 . On peut construire un test sur la statistique » X;, le nombre 
total de particules émises au cours des 20 unités de temps, qui suit une loi P(12) 
sous Ho. Intuitivement on choisit une région de rejet de la forme Ds ti >Rk, 
puisqu’un nombre plutôt élevé de comptages va à l’encontre de l’hypothèse 
nulle. Choisissant a priori & —0,05, on lit dans une table (ou dans un logiciel) 
que pour une v.a. T x P(12) on à P(T > 18) = 0,0630 et P(T > 19) = 0,0374. 
On optera pour un test conservateur en rejetant H6 si SE dy; > 19. 


La puissance du test est égale à PO, X; > 19 | H;) soit, dans une table, 
P(S > 19) où $ <> P(16). On trouve 0,258 qui montre que le test est sans 
biais. [| 


Nous mettons maintenant en évidence le test le plus puissant. 
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9.3 Test du rapport de vraisemblance simple 


9.3.1 Propriété d’optimalité 


Reprenons la fonction de vraisemblance du paramètre inconnu @ (voir déf- 
nition 6.11) pour une réalisation de l’échantillon (x41,%2,:-: ,Æn) : 


nm 


L(B;2%1,%2,..,%n) = f(t1, T2, .…., En: 0) = IL 76:09). 


i=1 


Nous restons dans le cadre d’une hypothèse nulle et d’une hypothèse alternative 
simples, soit @ = {06,01}. On supposera dans cette section que le support de 
la densité f(x;0) ne dépend pas de 6. 


Définition 9.6 On appelle test du rapport de vraisemblance (RV) de l’hy- 
pothèse Ho : 0 = 606 vs. Hi : 0 — 01 au niveau à, le test défini par la région de 
rejet de la forme : 


L(6: T1,T2, jee) <k 


L(b:;%1,7%2,...,%n) 


où k4 est une valeur (positive) déterminée en fonction du risque de première 
espèce «. 


Ce test a une certaine logique intuitive puisqu'il conduit à rejeter la valeur 
spécifiée 0) lorsqu'elle est moins vraisemblable que la valeur alternative 41, car 
k4 (dont on admettra l’existence) se trouvera, en fait, être plus petit que 1 
pour garantir un risque à faible (voir exemple 9.3). Notons que le rapport des 
deux vraisemblances (que l’on nomme rapport de vraisemblance) est bien une 
statistique puisque 6 et 01 sont donnés. 


Théorème 9.1 {historiquement : lemme de Neyman-Pearson) 
Le test du RV est le plus puissant quel que soit le choix de a €]0, 1[. 


Démonstration : soit A* C R” la région d’acceptation associée au test du RV 
de niveau @, i.e. : 


L(65; _ 
A* — CRC ( 0: T1, Z2, Ti) . k.) 


L(b1;:%1,%2,..….,Tn) 


et À celle d’un quelconque autre test. Les risques de première espèce du test du 
RV et de l’autre test s’écrivent? donc, respectivement, P(A | Ho) et P(A| Ho) 


211 n’est pas inutile de rappeler ici la convention initiale de la section 1.1, à savoir que 
pour une v.a. X quelconque P(X € A) est la probabilité P(A) associée à la partie À de R. 
Ici la probabilité P(A), par exemple, aurait pu être notée P((X1,X2,---, Xn) € A) pour 
se référer aux réalisations de l’échantillon dans R?. Même si cette notation est plus explicite 
nous y renonçons pour simplifier les écritures. 
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et, pour effectuer la comparaison, on doit avoir, en accord avec la définition 
9.5, P(A | Ho) — P(A| Ho) > 0. 


Partitionnons A* selon A* N A et A*N À, et de même À selon À N A* et 
À NA . La différence entre les risques de deuxième espèce des deux tests est : 


P(A|H1) — P(A*| Hi) = P(ANA | Hi) — P(A* NA] Hi) 


puisque les probabilités sur la partie commune AÀ* N À s’éliminent. Or en tout 
point de À*, et donc de À* N À, on a : 


L(b:;:21,20,..,2%n) < = L(b0; 21,22, ...,Tn), 


Le. f(t1, To, .…., Tn: 01) < (1, To, …., Zn; 00) 


steel 


et, par intégration (ou sommation dans le cas discret) sur le domaine A* NA, 
on à donc : 


P(A*NA|H:) < 


1 ne 
< —P(A* NA Ho). 


Pour tout point de À’, et donc de AN À’, l'inégalité s’inverse et on obtient : 
P(ANA'|H)> EP NA | Ho). 
En revenant à l’équation de départ, il s'ensuit que : 
P(A| Hi) — P(A* | Hi) > . [PCA NA | Ho) P(A* NA | Ho) | 


Considérant les partitions indiquées plus haut, le terme de droite est aussi égal 
à ns [P(A| Ho) — P(A* | Ho)|, lequel est lui-même égal à : 

1 = —* 1 —* — 

= [1- PGI Ho) -1+ PCA | Ho)] = = [P(' | Ho) - P(A | Ho) 

ka ka 
qui, par hypothèse, est positif ou nul. Ainsi le risque 5 d’un test quelconque 
est strictement supérieur à celui du test du RV et, de façon équivalente, il est 
donc moins puissant. 


Note 9.1 Dans le cas discret la démonstration du théorème peut poser problème. 
En effet on n’a pas nécessairement P(X | Ho) — P(A | Ho) > 0 dans la mesure où le 
risque de première espèce réel du test du RV peut, par conservatisme, être inférieur 
au niveau nominal &, alors que celui de l’autre test peut être plus proche de &. En 
fait le même résultat d’optimalité peut être démontré à condition de «randomiser» 
la règle de décision (test randomisé ou test mixte). 

Soit k, la valeur qui donne une probabilité de rejet sous H5 aussi proche que pos- 
sible du niveau nominal & mais inférieure (exceptionnellement égale) à @, ka +1 
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donnant alors une probabilité supérieure à @. La randomisation consiste à choi- 
sir la limite £, avec une probabilité p et k, + 1 avec probabilité 1 — p. On doit 
déterminer p pour que finalement le risque résultant soit exactement @. Appliqué à 
l’exemple 9.2 ce procédé conduirait à rejeter selon la règle Re xæ;> 19 avec proba- 
bilité p et selon Run æ;> 18 avec probabilité 1 — p, la valeur de p étant telle que 
px0,0374+(1 — p)X0,0630—0,05 soit p —0,51. À peu de choses près on doit jouer à 
pile ou face le choix de la règle avec 19 ou celui de la règle avec 18. 


On peut aussi ajuster son choix de & en prenant une probabilité exactement 
atteinte (dans l’exemple ci-dessus on pourra prendre la règle ni æ;> 19 en fixant 
a = 0,0374). Alors la démonstration ci-dessus est valide. 


Note 9.2 On a dû supposer que la densité ait un support indépendant de 
0 pour éviter que L(6:1;21,%2,...,%) s’annule alors que L(6o:x1,%2,.…., Zn) 
ne s’annule pas. On peut toutefois contourner ce problème en définissant la 
région de rejet par L(lo;æ1,%2,...,Æn) <  kL(b1;:2%1,%2,..,%n). Si 
L(01;x1,%2,..,%n) S’annule on à une réalisation impossible sous H et l’on 
peut choisir 4 sans aucun risque d’erreur. 


Proposition 9.1 Le test du RV est sans biais. 


Démonstration : pour rester très général ne supposons pas que k, soit inférieur 
à 1. Si k, > 1 on a, pour tout point de la région d’acceptation A* : 


(a, T2, En; 00) > f(t1, T2, Tn: 01) 
et, par conséquent, P(A* | Ho) > P(A* | H1) d’où P(A° | Ho) < P(A° | Hi) qui 
est la condition requise. Inversement, si k; < 1, on a, pour tout point de la 


région de rejet À” : 


f(x, T2, ..., Ln; 60) < f(x. T2, ..., Ln; 61) 


et, par conséquent, il est vrai aussi que P(À° | Ho) < P(A | Hi). 


Moyennant des conditions mineures on peut également démontrer que la 
procédure du RV est convergente. 


Ayant mis en évidence le test le plus puissant se pose la question de la 
faisabilité de ce test. En effet pour qu’il puisse être mis en oeuvre il faut que la 
statistique du rapport de vraisemblance prenne une forme telle que sa loi soit 
connue sous H9. Montrons sur l’exemple 9.1 que le test du RV peut se ramener 
à une forme simple ce que nous démontrerons ensuite pour les lois de la classe 
exponentielle. 
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Exemple 9.3 Dans le contexte de l’exemple 9.1 la fonction de vraisemblance 
pour y est : 


inf 1 
L(pit1,%2,-: ,Æn) = Il exp{— (ti —u)} 
ji V2T 2 


_ (5) st SCENE: 


i=1 


Pour être plus général considérons H6 : u = io vs. Hi : u = 1 d’où le 
rapport de vraisemblance : 


Lo; T1, %2, din ne) = exp - pe = Lo)? — DE — my | 


LORS arte ste) ji i=1 


— EXP {-; 20 — Hi) Six + (6 — à) : 


i=1 


Le rapport de vraisemblance ne dépend donc des observations qu’à travers 

n ; : ie n : 
D; 2. De plus comme c’est une fonction croissante de (uo — 1) D}; ti il 
est inférieur à kA si et seulement si (jo — pi) D, 3 < k!, où k!, est une autre 
constante que l’on déduit aisément de ka. Si do > 1 alors la région de rejet 
est de la forme 3°, x; < k” ou, de façon équivalente, 7 < k!!. Si lo < pu les 
inégalités doivent être inversées. 


Dans l’exemple 9.1 on a vu que, pour «a = 0,05 , do = 5 et 1 = 4, la région 
de rejet était définie par x <4,48 pour le deuxième test envisagé, lequel s’avère 
être le test le plus puissant. 


Ainsi, bien que la statistique du rapport de vraisemblance elle-même ne soit 
pas simple, le fait qu’elle soit fonction monotone de ÿ7_, X; dont la loi est 
connue suffit pour mettre au point le test. Par curiosité calculons la constante 
k, propre au rapport de vraisemblance. Comme n — 10 on a k”/ — 44,8 = k!, 
puisque Uo — 1 = 1. Alors : 


1 
ka = exp {-; [-2 x 44,8 + 10(25 — 16))} = 0,82. 


Ceci signifie que le test du RV consiste à rejeter H6 : u = 5 vs. Hi : p = 4 
lorsque la vraisemblance de la valeur 5 du paramètre inconnu y est 0,82 fois 
celle de la valeur 4. 


Notons encore que si l’on avait eu uo < w1 la région de rejet aurait été de 
la forme T > c, ce qui correspond à l'intuition. [| 


212 Statistique — La théorie et ses applications 


9.3.2 Cas d’un paramètre de dimension 1 


Nous montrons ici que le test du RV se ramène à un test simple, comme 
dans l’exemple ci-dessus, dans une grande variété de situations. 


Proposition 9.2 S'il existe une statistique T = t(X1, X2,-:- , X,) exhaustive 
minimale à valeurs dans R alors le rapport de vraisemblance ne dépend de la 
réalisation (x1,%2,.….,%n) qu'à travers la valeur t(x1,%2,...,Æn). De plus si ce 


rapport de vraisemblance est une fonction monotone de t(x1,%2,..….,%n) alors 
le test du RV se ramène à un test dont la région de rejet est de la forme 
t(T1,29,..., Xn) < € si c’est une fonction croissante ou t(x1,%2,.….,%n) > € si la 
fonction est décroissante. 


En effet, par le théorème de factorisation 6.1, si T = t(X1,X2,---, X») 
est une statistique exhaustive minimale alors l’expression de la vraisemblance 
L(6;x1,%2,--: ,%,) qui est identique à l’expression de la densité conjointe est 
de la forme g(t(x1,x2,…,æn);0) h(x1,x2, …,æ,) et le RV ne dépend plus que du 
rapport g(t(x1,22,.…,%n); 00) / g(t(t1,%2, .…., Œn); 01). Si g(u; 00) / g(u;: 601) est 
une fonction monotone de uw alors l'inégalité g(u: 00) / g(u;01) < k est équi- 
valente à une inégalité sur u. 


Proposition 9.3 Si la loi mère est dans une famille appartenant à la classe 
exponentielle, t.e. f(x;0) = a(0) b(x) exp{c(0) d(x)} (voir section 6.3), alors le 
test du RV a une région de rejet de la forme : 


2 d(x;) <k si c(o) = c(81) > 0 
où D d(x;)>k si c(do) — c(1) < 0. 


i=1 


Cette proposition est un corollaire de la précédente puisque l’on a vu que 
351 d(Xi) est exhaustive minimale (voir proposition 6.5). Le RV étant égal à 
[a(8o)/a(8:1)]" exp{[c(do) — c(d1)] 3172, d(x;)} on voit que le sens de l'inégalité 
dépendra du signe de c(85)—c(61). Notons que très souvent la loi de 57°, d(X;) 
est de type connu et k sera donc le quantile d’ordre a de cette loi sous H5 ou 
d'ordre 1 — «, selon que le signe est positif ou négatif. On pourra également cal- 
culer la puissance de ce test optimal. Les exemples 9.1 et 9.2 (loi de Gauss de va- 
riance connue et loi de Poisson) correspondaient à cette situation. Considérons 
encore le cas d’une loi de Bernoulli. 


Exemple 9.4 Soit le test Ho : p =po vs. Hi :p = p1 pour le paramètre p 
d’une loi de Bernoulli. Cette famille de lois appartient à la classe exponentielle 
etl’ona: f(x;p) = p°(1-p)l® = exp{ln() x} pour x € {0,1}. Donc d(x) — 
æ et, supposant par exemple que po > p1, on à In n > In er et la région 
de rejet est de la forme 3°, x; < k ou préférablement, comme nous sommes 
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dans le cas discret, 377,2; < k'. La statistique de test 377, X; suit une loi 
B(n, p) et pour a = 0,05, k’ est la valeur égale ou immédiatement inférieure au 
quantile d'ordre 0,05 sur la loi B(n, po). La puissance est la probabilité d’être 
inférieur ou égal à k’ pour la loi B(n, p1). 


Soit par exemple H5 :p—=0,5 vs. H;:p=—0,3 à tester au niveau 0,05 
avec un échantillon de taille 30. On lit dans une table binomiale pour la loi 
BOOD,5) es POELE 10) = 00 ét PE 8 € 1) "01008. On 
choisit donc la règle de rejet 37;_, x; < 10. Pour la puissance on lit sur la loi 
BÉDOUS NP SD) = 00 [| 


Le cas de deux hypothèses simples, nous l’avons dit, est peu réaliste et il 
nous faut maintenant envisager des situations plus générales. 


9.4 Tests d’hypothèses multiples 


9.4.1 Risques, puissance et optimalité 


Lorsque l’une des hypothèses H, ou H; est multiple les définitions de la 
section 9.2 doivent être revues. En effet si dans une hypothèse plusieurs valeurs 
du paramètre sont possibles il n’y a plus de risque unique. Aïnsi une expression 
telle que P(T € A| Ho) n’a pas de sens si Ho est multiple. 


Plaçons-nous dans le cas le plus général où l’on souhaite tester : 
H:0€E@ VS. H, :0€6:, 


où ®1 = 6 — ® est le complémentaire de @5 par rapport à @. Comme 
précédemment, de la façon la plus générale, un test est défini par une région 
À C R” d'acceptation de l'hypothèse nulle A5. Nous supposerons ici, comme 
cela se trouve en pratique, que cette région se réduit à un intervalle À de R 
pour une statistique de test T. Alors la règle de décision consiste à accepter 
Ho si la valeur réalisée t de T appartient à À et à rejeter Ho sinon. Si Ho est 
multiple le risque de première espèce Py(T € À) dépend de 9 appartenant à O0. 
Le niveau du test est alors défini comme le risque maximal que l’on encourt à 
rejeter H9 alors qu’elle serait fausse. 


Définition 9.7 Soit Ho : 0 € Oo une hypothèse nulle multiple et «(0) le risque 
de première espèce pour la valeur 0 € O9. On appelle niveau du test (ou seuil 
du test) la valeur à telle que : 
a = sup @(0). 
0€ 

De même si l'hypothèse alternative H1 : 0 € O@; est multiple le risque de 
deuxième espèce est une fonction 3(8) ainsi que la puissance. On définit alors 
la fonction puissance du test : 


R(0) = 1 — B(0) = Py(T € À) définie pour tout 0 € O1. 
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Définition 9.8 On dit qu’un test est sans biais si sa fonction puissance reste 
supérieure où égale à son niveau &, soit : 


Py(T E A)> a pour tout 0 € O1. 


En d’autres termes, la probabilité de rejeter H, si elle est fausse, quelle 
que soit la valeur de 0 dans @:, est toujours plus élevée que la probabilité de 
la rejeter si elle est vraie, quelle que soit alors la valeur de 0 dans @. 


Définition 9.9 On dit que le test Tr; de niveau a est uniformément plus 
puissant que le test T2 au niveau « s’il est de niveau à, si rm est de niveau 
égal (ou inférieur) à « et si la fonction puissance de T1 reste toujours supérieure 
ou égale à celle de 72, mais strictement supérieure pour au moins une valeur 
de 0 € O1, te. pour tout 0 € O1, h1(0) > h2(0) et il existe 0* € O1 tel que 
h1(0*) > R2(0*), où h1(0) et h2(0) sont les fonctions puissance respectives des 
tests T1 et T2. 


Le terme «uniformément» se rapporte au fait que la puissance de 7; est 
supérieure quelle que soit 0 € O1. 


Définition 9.10 On dit que le test T* est uniformément le plus puissant 
(UPP) au niveau « s’il est uniformément plus puissant que tout autre test au 
niveau @. 


Rien ne dit qu’un tel test existe. En effet il se peut, par exemple, qu’un 
premier test domine tous les autres pour certaines valeurs de 0 dans @;, qu’un 
deuxième soit le meilleur pour d’autres valeurs, etc. Signalons que certains ou- 
vrages en français parlent de test UMP (de l'anglais uniformly most powerful). 


Dans la situation la plus générale il n’existera généralement pas de test UPP. 
Néanmoins le résultat de Neyman-Pearson obtenu dans la situation simple de la 
section 9.3 s'étend assez naturellement à des situations d’hypothèses multiples 
dites unilatérales, très fréquentes en pratique. 


9.4.2 Tests d’hypothèses multiples unilatérales 
Nous considérons dans cette section des situations de test du type : 


Ho : 0 <6 VS. H:0>0 
ou H:0>60 VS. H :0<0% 


où 0 est donc un paramètre de dimension 1 (@ € R). Hypothèse nulle et 
hypothèse alternative sont multiples. De telles situations se rencontrent lorsque 
l’on s’intéresse uniquement à juger si le paramètre 0 dépasse un certain seuil 
(par exemple une norme de qualité, un seuil de pollution, un niveau antérieur, 
etc.). L'hypothèse nulle est dite unilatérale et par extension on parle aussi de 
test unilatéral du fait que la région de rejet est usuellement de la forme T'> c 
ou T'< c, T'étant la statistique de test. 
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Proposition 9.4 S'il existe une statistique T = t(X1, X2,-:- , X,) exhaustive 
minimale à valeurs dans R et si, pour tout couple (0,0) tel que 
0 < 0, le rapport de vraisemblance L(6:x1,x2,.….,2n)/L(0';:21,%2,..,%n) est 
une fonction monotone de t(x1,%2,:-- ,%), alors il existe un test uniformément 
le plus puissant pour les situations d’hypothèses unilatérales et la région de rejet 
est soit de la forme t(x1,x2,--- ,æn) < k, soit de la forme t(x1,%2, + ,æn) > k. 


En proposition 9.2 on a vu que le RV ne pouvait dépendre que de 


t(t1,%0,:-: ,*n) et que, dans le cas où l'hypothèse nulle et l’hypothèse alterna- 
tive sont simples, il suffisait, pour se ramener à une région de rejet de la forme 
t(t1,%2,": ,©n) < k ou t(x1,%2,--+ ,æn) > k, que le RV soit monotone pour 


les deux valeurs de # concernées, l’existence d’un test le plus puissant étant 
quoi qu’il en soit assurée. Ici la monotonicité du RV pour tout couple (4, 8’) est 
requise afin, d’une part, de garantir l’existence d’un test UPP et, d’autre part, 
de ramener ce test à une simple inégalité sur t(41,%2,--- ,æn). 


Démonstration de la proposition : prenons le cas où le RV est une fonction 
croissante de t(21,2%2,--- ,æ,) et pour Ho : 0 < 600 vs. Hi : 0 > 6. 


Montrons tout d’abord que P9(T < k) croît avec 0. Considérons le test 
simple fictif : H{ : 0 = 0" vs. H{ : 0 = 0" avec 0’ < 0”. Le test à région de rejet 
t(t1,%92,::: , Zn) < k est équivalent au test du RV avec 


Lib is LC E more NER 


et est donc sans biais (voir proposition 9.1), d’où Py:(T < k) < Pon(T < k) 
quels que soient 0’ et 0” tels que 0’ < 0”. 


Supposons maintenant que nous choisissions t(41,%2,--- ,æn) < k comme 
région de rejet pour tester Ho : 0 < 600 vs. H1 : 0 > 60. Alors Pa(T < k) 
correspond à la probabilité de rejet pour une valeur quelconque 0. En particulier 
le risque de première espèce croît pour 0 €] — æ , 6] et le risque maximal 
est donc atteint en 00. Par conséquent, pour obtenir un niveau a il suffit de 
choisir k tel que P9,(T < k) = a. On notera au passage que P9(T < k), pour 
0 Edo , +, définit la fonction puissance laquelle est également croissante, et 
ceci au fur et à mesure que l’on s'éloigne de 6. 


Du fait que le risque de première espèce est maximal en 4, on peut se 
contenter d'étudier la situation de test restreinte H5 : 0 = 60 vs. Hi : 0 > 6b. 
Soit 0’ une valeur dans AH, alors t(æ1,%2,--: ,%n) < k équivaut à : 


L(80; 21,%2,.., 2n)/L(0:%1,%0,.., 4m) < K’, 


qui correspond au test du RV simple de puissance A(0’) supérieure à celle de 
tout autre test en vertu du théorème 9.1. Ceci restant vrai quel que soit 0’ dans 
Hi, le test t(x1,%2,--: ,æ,) < k est bien uniformément le plus puissant. 


La démonstration à été faite dans un cas particulier, mais elle est analogue 
pour les trois autres cas possibles. Pour la situation A5 : 0 > 00 vs. Hi : 0 < 6 


216 Statistique — La théorie et ses applications 


l'inégalité sur t(21,%2,--- ,æh) doit être inversée par rapport à la situation 
précédente car la région de rejet L(80;21,%2,...,*%n)/L(0':æ1,29,...,2%n) < k 
est alors définie avec une valeur 4 supérieure à 0’ et le RV change donc de sens 


de variation par rapport à t(t1,%2,--: ,æ,). En résumé on a les régions de rejet 
suivantes : 

1. Ho : 0 < 60 et RV fonction croissante de t(æ1,--: ,æn) : {(t1,--: ,2n) < k 

2. Ho : 0 < 66 et RV fonction décroissante de t(æ1,--: ,Æn) : t(t1,-:- ,Æn) > k 

3. Ho : 0 > 60 et RV fonction croissante de {(21,-:- ,æÆn) : t(æ1,:-: ,%n) > k 

4. Ho : 0 > 60 et RV fonction décroissante de t(æ1,:-: ,Æn) : {(t1,::: ,%n) < k. 


Notons que la propriété établie en préambule de la démonstration s'étend 
aux trois autres cas : la probabilité de rejet est une fonction monotone 
du paramètre 0, le risque de première espèce est maximal en 69, la 
fonction puissance croît quand on s’éloigne de 4 (voir illustration de 
l'exemple 9.5 et figure 9.1). 


Certains auteurs considèrent la situation H, : 0 = 06 vs. H3 : 0 > 606. On 
a vu au cours de la démonstration que celle-ci est équivalente à la situation 
Ho : 0 < 606 vs. H: : 0 > 600 pour le test UPP. 


Une famille de densité qui vérifie les conditions de la proposition 9.4 est dite 
être à rapport de vraisemblance monotone. Si elle appartient à la classe 
exponentielle son RV est égal à [a(0)/a(8’)]" exp{[c(8)—c(8/)] 57°, d(x;)} (voir 
démonstration de la proposition 9.3). Dans cette classe une condition nécessaire 
et suffisante pour remplir ces conditions est donc que c(0) —c(0") garde le même 
signe quel que soit le couple (0,8’) tel que 0 < 0/, c’est-à-dire que la fonction 
c() soit monotone. De plus la fonction des observations t(41,x2,--- ,æ,) de la 
proposition 9.4 est 37°, d(x;), d’où la proposition suivante. 


Proposition 9.5 Si la loi mère est dans une famille appartenant à la classe 
exponentielle, i.e. f(x;:0) = a(0)b(x)exp{c(0)d(x)}, et si la fonction c(0) est 
monotone, alors il existe un test uniformément le plus puissant pour les si- 
tuations d’hypothèses unilatérales et la région de rejet est soit de la forme 


D, d(xi) < k, soit de la forme D, d(xi) > k. 


Exemple 9.5 Comme dans les exemples 9.1 et 9.3 considérons une loi mère 
Nu ,1) où u est inconnu. Testons A6 : 1 < po vs. H1 : u > uo. La densité de 
la loi mère est : 


fn) = ent — nf} = exp -5(et)}exp{ ie} exp). 


Ici c(u) = u et d(x) = x. Le test UPP à donc une région de rejet de la forme 
Dit > k ou D, &i < k. Pour trouver le sens correct de l’inégalité il faut 
repartir du rapport de vraisemblance L(u;x1,%2,..,%n)/L(u:%1,22,..…,2) qui, 
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comme il à été établi dans l’exemple 9.3, varie comme exp{(u — y) 325, œi} 
et, pour u < y, est donc une fonction décroissante de 37°_, 23. Ainsi un RV 
inférieur à k est équivalent à 3°, x; > k' ou encore à z > k”. Ceci définit 
la région de rejet puisque nous sommes dans le cas 2 ci-dessus. Notons qu’on 
pouvait trouver intuitivement le sens de l'inégalité du fait qu’une moyenne 
empirique élevée abonde dans le sens de A; à l’encontre de Hh5. 


Dans l'hypothèse nulle on sait que le risque de première espèce est le plus 
élevé en 40. Pour cette valeur du paramètre w, X est de loi W(u0,1/Vn). 
Pour un niveau 0,05 la constante 4” est définie par P,(X > k”) = 0,05 et 
est donc égale au quantile 0,95 de la loi W(u0, 1/1), soit do+1,645(1/,/n). 
La fonction puissance est définie par A(u) = P,(X > o+1,645(1/Vn)) pour 
X = N{u,1/Vn) et u Eluo, +oœl. En posant Z = /n(X — a) on obtient : 


h(u) = P(Z > 1,645 — Yn(u — lo) ) 


où Z rx N(0;1). Comme u—uo > 0 la valeur 1,645—-,/n(u1 — 10) tend vers —co 
quand n tend vers l’infini, donc h(u) tend vers 1, ce qui démontre la convergence 
du test. 


Pour illustrer cela considérons un produit dont une certaine mesure de qua- 
lité est, selon le producteur, inférieure ou égale à 5 en moyenne (par exemple la 
teneur en lipides d’un aliment allégé) et soit un test s’appuyant sur échantillon 
de taille 10. On considère toujours que l’écart-type de la variable qualité est 
connu et égal à 1. Pour un niveau de test 0,05 on rejettera Ho si la teneur 
moyenne observée sur les 10 produits (tirés au hasard) est supérieure ou égale 
à 5+1,645(1/V10) = 5,52. La fonction puissance est obtenue en calculant 
P,(X >5,52) avec X > Nu, +) pour w €]5,+oo, c’est-à-dire en calcu- 
lant P(Z > V10(5,52-u)) où Z + N(0;1), soit 1 — E(Y10(5,52-yu)) où P 
est la fonction de répartition de cette loi. Cette valeur croît avec 4 comme le 
montre la figure 9.1. À gauche de y = 5 il s’agit du risque de première espèce. 
Cette croissance est caractéristique des familles à rapport de vraisemblance 
monotone. [| 


Exemple 9.6 Soit la famille de lois exponentielles { f(x; À) = Xe ";x > O, 
À > 0}. On a c(À) = —À et d(x) = x. Pour Ho : À > Ào vs. Hi : À < Xo le 
test UPP repose sur D}, x; ou sur &. Pour trouver le sens de l'inégalité on 
rappelle que la moyenne de la loi est 1/À. Ainsi une forte valeur observée pour 
z doit refléter une forte valeur de 1/X, soit une faible valeur de À, ce qui est du 
côté de H;. La région de rejet est donc de la forme 7 > k. 


La valeur de k doit être telle que P\,(X > k) = à pour obtenir le niveau 
a. Or, si À = Ào, >; X; suit une loi l'(n, Ào) (voir section 4.2.3). Comme 
P\(X > k) = Pi, Xi > nk), nk est le quantile d’ordre 1 — à sur la loi 
T{n, A0), d'où l'on déduit E. = 


Pour la loi de Bernoulli B(p) qui régit notamment le test sur une proportion 
dans une population, on a c(p) = In Fu qui est une fonction croissante de p et 
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4,5 ce) 9,5 6 6,5 


Figure 9.1 - Fonction puissance pour H : u = 5 sur une loi Wu ,1). 


d(x) = x (voir exemple 9.4). Le test UPP de H5 : p < po vs. Hi : p > po repose 
donc sur ÿ°_, x; qui est le nombre de «succès» observé. On rejette Ho si ce 
nombre est trop élevé (car cela fait pencher vers H:) et la valeur critique k se 
lit sur la loi BW(n, po) comme dans l’exemple 9.4. 


Pour la loi de Poisson P(À) on a c(À) = In À qui est une fonction croissante 
de À et d(x) = x (voir exemple 6.2). Pour déterminer la valeur critique k on 
utilise le fait que 37°, X; suit une loi P(nAÀ). L'examen de la loi de Pareto est 
proposé dans les exercices. 


L'existence d’un test UPP n’est pas réservée à la classe exponentielle. Pour 
la famille des lois uniformes {{[0, 0] on a vu que le maximum X{,, est statistique 
exhaustive minimale. On peut montrer qu’elle est à RV monotone et il existe 
donc un test UPP de la forme X{,, < k ou X{,, > k (voir exercices). 


Remarque 9.1 Choix de H5 


Face à une situation pratique le choix du sens de A5 (0 < 60 ou 8 > 66) n’est 
pas toujours évident. Il devra se faire en considérant les deux erreurs possibles. 
On doit faire en sorte que celle qui est jugée la plus grave soit une erreur de 
première espèce : affirmer que H5 est fausse (donc que l’on choisit H;) alors 
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qu’elle est vraie. En d’autres termes l'affirmation la plus sensible doit corres- 
pondre à H,. Dans l'illustration de l’exemple 9.5 on peut commettre une erreur 
soit en déclarant que la teneur n’est pas respectée alors qu’elle l’est pourtant, 
soit en déclarant qu’elle est respectée alors qu’elle ne l’est pas. La première er- 
reur est beaucoup plus préjudiciable pour la personne effectuant le test (on ne 
veut pas accuser à tort). Aussi AH doit-elle exprimer le fait que la teneur n’est 
pas respectée, soit 1 : p > 5 d’où H6 : u < 5. Supposons qu’un médicament 
soit considéré efficace si un paramètre 0 dépasse un seuil 06. On peut déclarer 
le médicament efficace alors qu’il ne l’est pas ou le déclarer inefficace alors 
qu’il est efficace. La première de ces erreurs est plus critique car elle aura pour 
conséquence de mettre sur le marché un médicament inutile, alors que pour la 
deuxième le médicament ne sera pas diffusé par mesure conservatoire. H; doit 
donc correspondre au fait que le médicament est efficace, soit 4 > 00 d’où Ho : 
0 < 6. 


Notons que dans la théorie classique développée ici la notion de risque de 
première ou de deuxième espèce suppose que l’hypothèse nulle et, donc, l’hy- 
pothèse alternative aient été posées avant d’observer les données. En pratique il 
est fréquent que l’on décide du sens du rejet sur la base même des observations. 
Cette façon de faire est à rapprocher de l’usage de la P-valeur décrit en section 
9.6 ou encore de ce qu’on appelle parfois un test de significativité. 


9.4.3 Tests d’hypothèses bilatérales 


Nous considérons deux situations du type bilatéral : 


Ho : 0 = 0 VS. H :0Z40 
ou Ho: 01 <0 < 6 VS. H:0<bou0 > 6 


où 0 est un paramètre de dimension 1 (6 € R). La première situation est 
fréquente lorsque 0 représente en fait un écart entre paramètres de deux popu- 
lations, par exemple entre leurs moyennes (voir section 9.7.3). La seconde teste 
si le paramètre est situé dans un intervalle de tolérance acceptable. L’appella- 
tion de bilatéral se réfère au fait que l’alternative est située de part et d’autre 
de l’hypothèse nulle. 


On ne peut s'attendre dans ces situations à obtenir un test UPP du fait 
qu’il faut faire face à des alternatives à la fois du type 4 < 60 et du type 
0 > 60, par exemple pour le premier cas. Toutefois il pourra y avoir un test 
uniformément plus puissant dans la classe restreinte des tests sans biais, en 
bref UPP-sans biais. Ceci est notamment vrai pour les familles de lois de la 
classe exponentielle. D'une façon générale la région d’acceptation aura la forme 
C1 < t < C2, OÙ C1 < C2, pour la réalisation d’une statistique de test T' appro- 
priée (soit 37°, d(X;) pour la classe exponentielle). Ceci justifie l'appellation 
fréquente de test bilatéral puisqu'on est amené à un rejet sur les deux extrémités. 
Nous rencontrerons de telles situations dans la section sur les tests usuels. 
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Note 9.3 L'usage veut que l’on détermine les valeurs critiques c1 et c2 en 
répartissant æ/2 sur chaque extrémité. Ainsi, pour le cas Ho : 0 — 60, ces 
valeurs seront telles que Pa,(T < c1) = Po, (T > c2) = a/2. Mais cette règle ne 
conduit pas au test UPP-sans biais si la loi de T n’est pas symétrique (le test 
peut même ne plus être sans biais). Dans la classe exponentielle la répartition 
doit être telle que la dérivée par rapport à 0 de Po(T < c1) + Po(T > c2) 
s’annule en 66. 

Pour le cas Ho : 01 < 0 < 02 la condition est que le seuil & soit atteint à la 
fois en #4, et en 02. La résolution de tels problèmes n’est pas simple et, dès lors, 
la règle de répartition égale apparaît bien commode (une situation de test de 
ce type sera envisagée dans l’exemple 9.8). 


Nous n’approfondirons pas la recherche de tests optimaux dans les cas bi- 
latéraux et nous nous contenterons de présenter un test de portée générale, 
inspiré du rapport de vraisemblance simple, s'appliquant aux situations les 
plus complexes et, en particulier, aux hypothèses bilatérales ci-dessus. 


9.5 Test du rapport de vraisemblance 
généralisé 
Considérons maintenant les hypothèses paramétriques les plus générales. 


Définition 9.11 Soit la famille paramétrique {f(x;0),0 € O6}, où O6 C R, 
et les hypothèses Ho : 0 € Oo vs. H1: 0 € O1 où O1 = 6 — @ est le 
complémentaire de ®0 par rapport à ©. On appelle rapport de vraisemblance 
généralisé (RVG), la fonction \(x1,7%2,...,2n) telle que : 

sup L(6; T1,22,..., 1e) 
= 0€85 


supL(6; x1,o, ue) 
0ee 


et test du RVG, le test défini par une région de rejet de la forme : 
À(T1,T2,..., En) <k <1. 


Il est évident que À(x71,%2,..,%n) est inférieur ou égal à 1 pour toute 
réalisation (x1,%2,...,2,). De plus, s’il existe une estimation du maximum de 
vraisemblance 0M V,et c’est pour ainsi dire toujours le cas (voir section 6.7.1), 
alors le dénominateur est la valeur de la fonction de vraisemblance en 0M F 
soit : L(OMV ;m,œ0, bas 


Le RVG relève de la même rationalité que le RV simple. Si, pour une 
réalisation donnée, la vraisemblance atteint un maximum dans HQ qui reste 
bien inférieur à son maximum absolu dans tout l’espace paramétrique ®, alors 
il y a lieu de douter de cette hypothèse. 
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Vérifions que dans le cas d’hypothèses nulle et alternative simples, le test 
du RVG est équivalent au test du RV simple. Le dénominateur du RV est 
L(b1;:21,x%2,..,2,) alors que celui du RVG est la valeur maximale entre 
L(@0;%1,%2,.….,n) et L(01:%1,%2,..…., 2). Pour les réalisations (41,49, ...,%h) 
telles que le RV simple est strictement inférieur à 1, cette valeur maximale est 
donc atteinte pour @, et le RV simple est égal au RVG et, réciproquement, si le 
RVG est strictement inférieur à 1 alors il en va de même pour le RV. Les régions 
de test ÀA(x1,x2,..….,2n) < k et L(00;21,%2,...,tn)/L(01;%1,%2,.….,%n) < k sont 
donc identiques. Toutefois si le RV simple est supérieur à 1 alors la valeur 
maximale est atteinte pour 4, le RVG reste égal à 1 et il n’y a donc pas 
équivalence sur un plan strictement mathématique. Cependant il est clair qu’en 
règle générale le test du RV simple n’a de sens que s’il se fonde sur une valeur 
de k inférieure à 1, ceci pour garantir un risque de première espèce faible (voir 
le commentaire à la suite de la définition 9.6), et on peut considérer qu’il y a 
équivalence du point de vue pratique. 


Le test du RVG n’a pas de propriétés d’optimalité notables mais on constate 
dans des situations usuelles qu’il donne le test UPP-sans biais (voir l'exemple 
9.7). Cependant il possède des propriétés asymptotiques intéressantes, notam- 
ment sa convergence moyennant des conditions de régularité analogues à celles 
de l’estimateur du maximum de vraisemblance. 


Le problème est toutefois de connaître la loi de la statistique du RVG 
A(X1,X2,--,X,) pour toute valeur de 0 dans @, afin de définir la valeur de 
k permettant de garantir le niveau a choisi. En effet cette valeur doit être telle 
que : 

sup P(X(X 1, X2, c… Xn) < k) = &. 

0€ 
Il arrive, comme dans l’exemple qui suit, que la région de rejet se ramène à 
une forme simple. Mais cela reste l'exception et nous verrons plus loin qu’on 
dispose, sinon, d’une approximation asymptotique très utile. 


Exemple 9.7 Soit la famille de loi N{(y, o?) avec (1, a?) inconnu et l'hypothèse 
Ho : o? = 08 vs. Hi : a? £ 08. Comme y est inconnu H et Hi sont toutes 
deux multiples. Pour (4,0?) quelconque la fonction de vraisemblance est : 


CT 1 1 
L U,07;%1,%2,"* > Ln) — EXP Ti LH : 
( = Tertre 10) 


(=) st te — n)°}. 


On a vu (exemple 6.20) que l'estimation du MV pour le paramètre (u, 0°?) 
inconnu est (, 5?) où 8? = 15 (x; -7)?. Le dénominateur du RVG est donc 
obtenu en remplaçant respectivement y et o? par x et 32. Pour le numérateur 
il s’agit de maximiser uniquement sur y car o? est fixé, égal à ag. Cela revient 
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2 


à minimiser ÿ/_,(x; — u)? ce qui s'obtient pour y = æ. Finalement le RVG 


est égal à : 


(A) et Et 2) 


(Æ) svt Die 2) 
2 


2 \? exp ce g \° 
2 n — 5 eXP{1 2} * 
06 exp{—? O6 d6 


Considérons la fonction g{u) = uexp{1 — u}. Elle est nulle pour u = 0 et 
tend vers Ü quand uw — +00. Son sens de variation est le même que celui de 
In g(u) = nu+1—u_u dont la dérivée est L — 1, laquelle est positive pour u < 1, 
s’annule en u = 1 et est négative pour « > 1. La fonction g(u) admet donc un 
unique maximum sur [0,+oo![ en u = 1. La région de rejet À(21,%2,...,%n) < k 


# . . 32 \ . 
se traduit ainsi en uj < #5 < U2 Où uy < 1 < U2 et g(u1) = g(u2), soit encore, 
(0) 


(1,22, ..., Xn) = 


en multipliant par n : 


D ii (ri =) 


NUL 5 —— < NU2 . 
O6 


Or la statistique 37°, (X; — X)?/o$ suit une loi x?(n — 1) (voir théorème 5.1) 
ce qui permet de trouver des quantiles appropriés M et Un, Ceux-ci, 
pour le niveau & choisi, doivent d’une part vérifier &1 + a2 = a et d’autre part 
LIÉE = ARS) = g(1 on) Ce test est de la même forme que le test classique 
que nous verrons en section 9.7.2 et dont on peut montrer qu’il est UPP-sans 


biais pour un choix particulier des quantiles ci-dessus. [ | 


Exemple 9.8 Nous donnons maintenant un exemple dans la situation : 
Ho : 0 <0<6 VS. H,:0<bou0 > 6 


qui, bien qu’assez peu envisagée par les praticiens, est souvent plus réaliste que 
celle où H5 : 0 = 600. En effet tester une valeur ponctuelle n’a pas grand sens 
tant il est vrai qu’on peut être certain qu’elle ne peut correspondre de façon 
exacte à la vérité. D'ailleurs, pour un test convergent, on sera amené à coup 
quasi sûr à rejeter cette hypothèse avec de grands échantillons. Dans la mesure 
du possible il est préférable de considérer une marge de tolérance [41,42] pour 
le paramètre inconnu. 


Nous prenons le cas d’une loi mère W{u,a?) où le paramètre (u,a?) de 
dimension 2 est inconnu et testons donc : 


Ho : pi << vs. Hi: < ji où H > Ji. 
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—n 
Le dénominateur du RVG vaut ( 28°) exp{—®} comme dans l'exemple 
9.7. Pour trouver le numérateur il faut maximiser : 


(2502) exp 3h D 1) 


i= 


pour y € [u1, 2] et a? > 0 quelconque. En passant au logarithme cela revient 


à minimiser : 
| 


Pour a fixé, Ino? + La est minimal o? est égal à a et il faut donc 
minimiser la fonction : 


Sri p) = x? +nulu — 27) 
i—1 i=1 


ou encore A(u) = p{u — 27). 


In o? +5 


Pour les réalisations telles que 7 soit dans [1,12] le minimum est atteint 
pour u = %. Mais dans ce cas la solution est identique à celle du dénominateur 
et le RVG vaut 1. On est donc nécessairement dans la zone d’acceptation 
(l'inégalité pour la zone de rejet donnée dans la définition 9.11 étant stricte). 


SiT < y le minimum cherché pour y € [1,2] est obtenu pour 4 = j1 car 
la fonction h(u) est croissante pour y > %. Le numérateur du RVG vaut alors 


(Var) exp{—2} où 52 = LS (ri — mn)? et le RVG vaut (52/52) 7/2. 
L’inégalité À(x1,172,...,æn) < k se traduit donc en s?/8? > k' avec k’ > 1. Or: 


102 


RD) = 2 Sn 0 + GP 


= 29 x) - 2 pa) (ai n+23E lu) 
=#+(T-m). 


Donc 57/5? = 1+(T-u)?/5 et s?/8? > k' équivaut à (7 — u1)?/5? > k 
où k/! > O0, soit encore, après multiplication par n — 1 et en prenant la racine 
carrée, [r — 1|/(s/Vn) > k1 avec k1 > 0. Comme 7 < y on à finalement 
une région de rejet de la forme (T7 — y1)/(s/Vn) < —k:. 


De la même façon on obtient, pour les réalisations telles que T7 > 2, la 
région de rejet (7 — u2)/(s/n) > k2. La difficulté vient alors du fait qu'il faut 
trouver les constantes positives k1 et k2 telles que, pour tout u € [u1, do] : 


r (ER < n)+2 (TR ke) <a 
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X-y 
S/vn 
admettant que le risque maximal est atteint en 1 ou en 2, la solution n’est 


pas simple. En effet si, par exemple, 1 = u1 la deuxième probabilité concerne 
une v.a. qui ne suit pas une loi de Student classique du fait que u2 n’est pas 
la moyenne de X, mais une loi de Student non centrale de paramètre de non- 
centralité (41 — u2)/o dont les tables sont peu répandues (sans compter que o 
est inconnu). On peut mettre en évidence une procédure conservatrice en 
réécrivant la somme des probabilités ci-dessus, dans ce même cas où u = pu, 
selon : 


sachant que suit une loi de Student à n-1 degrés de liberté. Même en 


X—p ir ph 2 — bi 
Pa (nn) (Get) 
(n—1) 
1-a/2? 
seconde est certainement inférieure à a/2 puisque 2 — ua est positif. Le rai- 
sonnement est identique lorsque u = u2. Notons que la procédure est d’autant 
plus conservatrice que les deux moyennes s’éloignent. 


En prenant k1 = k2 = t la première probabilité vaut bien a/2 et la 


La situation Ho : u = uo vs. H1 : H Æ Lo peut être considérée comme 
un cas particulier de la situation ci-dessus, avec 1 = 2 = io. On à alors une 
procédure exacte en choisissant pour —k, un quantile D de la loi t(n—1) et 


pour k un quantile ne de façon que &1+a2=a. En raison de la symétrie de la 
: : ; : PTE (n—1) 
loi de Student il semble naturel d’opter pour les quantiles symétriques {,, + Li 


ed et Hs Ceci correspond au test classique présenté en section 9.7.1 


dont on montre qu’il est UPP-sans biais. 


En exercices est proposé le cas plus simple où o? est connu. = 


Paramètre de nuisance 


Supposons que la loi mère appartienne à une famille à paramètre de dimen- 
sion 2, noté pour la circonstance (0, p) où @ et p sont ses deux composantes. Si 
l'hypothèse nulle ne spécifie que la composante 4, la composante p est appelée 
paramètre de nuisance. C’est le cas de o? dans l'exemple ci-dessus ou celui de 
4 dans l’exemple 9.7. Pour les tests usuels, la présence d’un paramètre de nui- 
sance fera qu’il n’y aura généralement pas de test UPP, mais il peut exister un 
test UPP-sans biais. Ceci est vrai pour l'hypothèse H5 : a? = oë de l’exemple 
9.7 ou pour H5 : ji = 0 de l’exemple qui précède. Pour une hypothèse nulle de 
la forme H6 : 01 < 0 < 063 on montre qu’il existe un test UPP-sans biais pour 
une famille de la classe exponentielle si sa densité (ou fonction de probabilité) 
peut s’écrire : 


F(x:0,p) = a(8,p)b(x) exp{c(8)di(x) + c2(p)d2(x)} 


On notera que ceci n’est pas vérifié par la loi de Gauss qui ne sépare pas ainsi 
u et a? dans la partie exponentielle. De fait, il n’existe pas de test UPP-sans 
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biais pour Ho : u1 < u < u2 considérée ci-dessus. Ces résultats se généralisent 
à plusieurs paramètres de nuisance. 


Nous donnons maintenant un résultat asymptotique très précieux qui per- 
mettra de déterminer une région de rejet approchée dans le cas de grands 
échantillons. 


Théorème 9.2 Soit la famille paramétrique { f(x;0),0 € @}, où O C RŸ, et 
l'hypothèse Ho spécifiant les valeurs de r composantes de 0 (1 < r < k). Suppo- 
sons que soient remplies les conditions de régularité garantissant que l’estima- 


teur du maximum de vraisemblance soit BAN (voir proposition 6.11). Alors, 
sous Ho, la statistique du RVG An = A(X1,X2,--- , Xn) est telle que : 


_2InA, = x2(r). 


Donnons une esquisse de démonstration dans le cas simple où le paramètre 
Ô inconnu est de dimension 4 = 1 et est donc parfaitement spécifié par H : 
0 = 06. On verra ainsi que ce résultat est lié aux propriétés asymptotiques de 
l’estimateur du MV. Pour une quelconque réalisation (41,%2,--- ,æ,) notée en 
bref x, développons en série de Taylor la log-vraisemblance de x, en 4 autour 
de l’estimation du maximum de vraisemblance 0, : 


In L(60;Xn) — 


ia ) 


In L(On:Xn) + (0, — ie In L(On:xn) 60) PTE In L(ôn:Xn) 


00 


PR 
D 
è 


où bn est une valeur comprise entre 4 et bn. Comme, par définition de l’esti- 
mation du MV, & In L(0,;:xn) = 0, on a, pour le RVG : 


—21n À,= — 2[ln L(60; xn)— In L(On: Xn)|, 

d’où : 
" ) de 
—21nÀ,= —(0, — 00) ET In L(0»;xXn). 
En passant aux v.a. (avec X,— (X1, X2,--. , X,)), sous l’hypothèse nulle, bn 
converge en probabilité vers 4 et il en va donc de même pour #,. On peut alors 
2 

montrer, d’une part par continuité de En In f(x;0) par rapport à 0 (condition 
de régularité), d’autre part par la loi des grands nombres, que : 

1 


| 
al 


converge en probabilité et donc en loi vers Ee, 7 In f(X; bo) = 1(00). Ainsi 


—21n A, à la même convergence en loi que la suite de v.a. n1(6@o)(ôn — 60)? Or, 
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selon la proposition 6.11, /n1(66)(0n — 4) converge en loi vers la loi W(0:1) 


d’où il découle que n1(06)(ôn — 8)? converge en loi vers la loi y2(1). CO 


Comme la région de rejet À < k est équivalente à —21n À > k’ on rejettera 
à un niveau approximatif @ si : 


(r) 


—@ * 


—21n À > x 


Ce résultat dont la validité s’étend au-delà de l’échantillonnage aléatoire simple 
autorise un test approché dans des situations complexes. C’est pourquoi on 
trouve le test du RVG de façon omniprésente dans les logiciels. Nous 
montrerons plus loin qu’il est à la base des tests classiques dits du khi-deux 
portant sur des fréquences (voir sections 10.1 à 10.4). 


Note 9.4 Dans les situations de test que nous avons décrites, le cas le plus 
fréquent est celui d’une hypothèse nulle ne spécifiant qu’une seule dimension 
du paramètre, la statistique du RVG suivant alors une loi x?(1). Quand le 
RVG est un test usuel avec une statistique dont la loi est connue sous H4 on 
peut apprécier la validité de l’approximation asymptotique (voir exercice 9.8). 
Notons que la région de rejet au niveau 0,05 est —21n À > X0 6 = 3,84 ce qui 
signifie un rapport de vraisemblance inférieur à 0,147. 


Note 9.5 Lorsque l’on comparera plusieurs populations on posera l'égalité de 
certains paramètres sans vraiment les spécifier tous. On verra par exemple en 
section 9.7.3 l'hypothèse nulle d'égalité des moyennes de deux lois gaussiennes 
H5 : ui = 12. En fait pour le théorème ci-dessus on peut considérer que l’on 
spécifie un paramètre. Pour le voir il suffit de poser 2 = u1 + 0 et Ho s'écrit 
alors 0 = 0. 


9.6 Remarques diverses 


La plupart des tests disponibles ont été développés à partir d'idées intuitives 
en imaginant une statistique dont le comportement est très différencié sous 
H, et sous H;, et dont la loi exacte ou approchée est accessible sous À. 
Evidemment de tels tests seront rarement UPP. Pour une situation de test 
donnée il existe généralement, comme on peut le voir dans les logiciels, plusieurs 
propositions de test. Il est difficile de savoir quel test est préférable car le calcul 
formel de la puissance ne peut être conduit, soit parce que la loi de la statistique 
est trop complexe pour l’alternative, soit en raison de la multiplicité de formes 
de cette alternative (notamment pour les tests de type non paramétrique comme 
on en verra au chapitre 10). Suite à des études examinant des hypothèses 
alternatives particulières, formellement ou par simulation, on dispose parfois 
d'éléments permettant d’effectuer le meilleur choix compte tenu des formes les 
plus plausibles de l’alternative dans la situation considérée. 
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Comme pour les intervalles de confiance les résultats asymptotiques concer- 
nant l’estimateur du MV peuvent être utilisés pour construire un test approxi- 
matif. En effet /n1(8) (ÔMV — 8) suit approximativement une loi W(0:1). Si 
l'hypothèse nulle spécifie parfaitement 4 = @ alors 4/n1(06) (0MV — @5) est 
une statistique de loi approximativement connue, ce qui permet de définir une 
région de rejet. Ceci sera utilisé dans la prochaine section pour le cas d’une loi 
mère de Bernoulli avec de grands échantillons. 


La théorie classique des tests peut être généralisée dans le cadre de la théorie 
de la décision. Celle-ci stipule une fonction de perte qui définit un coût pour 
l'erreur de première et pour celle de deuxième espèce, puis la notion de risque 
comme espérance mathématique de cette fonction de perte. Le risque étant une 
fonction de 4 l’objectif est alors de rechercher le test qui minimise le risque, 
si possible uniformément en 0. Un tel test n’existant généralement pas on se 
satisfera, par exemple, d’un test minimax pour lequel le risque maximum sur 
O reste inférieur ou égal à celui de tout autre test. On peut conjuguer cette 
approche avec une approche bayésienne en considérant une loi a priori sur @© 
et en minimisant le risque a posteriori qui ne dépend plus du ou des paramètres 
inconnus. Notons que la théorie classique repose implicitement sur une fonction 
de perte attribuant le coût 1 à une erreur de première comme de deuxième 
espèce. 


L'usage courant de la P-valeur 


La décision d’accepter ou de refuser une hypothèse est sujette au choix 
du risque de première espèce a. Afin d'éviter ce choix on peut recourir, et 
c’est ce que font les logiciels, à la notion de P-valeur pour simplement rendre 
compte du résultat d’un test. La P-valeur est la probabilité que, sous 
H,, la statistique de test prenne une valeur au moins aussi extrême 
que celle qui a été observée. La notion de position extrême se définit en 
relation avec la définition du seuil du test. Si la région de rejet est unilatérale 
du type t > c, alors pour une valeur to observée après expérience la P-valeur 
est P(T > to | Ho) si Ho est simple ou bien le maximum de P5(T > to) sur Oo 
si elle est multiple. Si la région de rejet est bilatérale, par exemple {t|t < « 
out > ©} alors la P-valeur est définie par 2P(T < to | Ho) si to est plus petit 
que la médiane de la loi de T sous Ho ou 2P(T > to | Ho) s’il est plus grand, 
ceci afin de tenir compte du rejet sur les deux extrémités. 


Reprenons la situation de l’exemple 9.5 avec Ho : u < 5 vs. Hi : u > 5 pour 
une loi mère W{u, 1). On à vu que sur la base d’un échantillon de taille 10 
on est amené à rejeter Ho si & > 5 + 1,645(1/V10) au niveau 0,05 ou, plus 
généralement, 7 > 5 +2-a(1/V10) au niveau « où 214 est le quantile d'ordre 
1 — a de la loi de Gauss centrée-réduite. Supposons que l’échantillon observé 
ait une moyenne égale à 6. Comme le risque de première espèce maximal est 
atteint pour u = 5 la P-valeur est égale à P(X > 6) pour X + W(5; 1/10) soit 
P(Z > V10(6— 5)) = P(Z > 3,16) pour Z > W(0; 1), laquelle est égale à 
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0,008 ce qui indique directement que la valeur observée est au-delà de la valeur 
critique au niveau 0,05 et même au niveau 0,01. Si le test avait été bilatéral avec 
Ho:u=5vs. Hi: u #5, la P-valeur correspondant à la même observation 6 
aurait été prise égale à 0,016 impliquant un rejet au niveau 0,05 mais pas au 
niveau 0,01. 


Avec cette définition, d’une façon générale, la P-valeur permet de déterminer 
si l’on rejette à un niveau a donné (à condition toutefois que, dans le cas bi- 
latéral, la zone de rejet soit partagée en risque a/2 équitablement sur chaque 
extrémité, ce qui est l’usage courant). Si la P-valeur est inférieure à & on rejette 
H, sinon on l’accepte. Comme autre façon de voir les choses on peut dire que 
plus la P-valeur est faible plus l'hypothèse nulle est suspecte. Ainsi l’indica- 
tion des P-valeurs dans les logiciels a rendu obsolète l’usage des tables pour le 
praticien. 


9.7 Les tests paramétriques usuels 


Certains de ces tests ont, en fait, déjà été vus dans la théorie générale et 
nous les indiquerons plus brièvement. La construction des tests usuels découle 
de la présence d’une statistique de loi connue sous H, et souvent sous H, 
s'imposant de façon assez naturelle, indépendamment de toute considération 
d’optimalité. Dans la plupart des cas il se trouve que le test ainsi construit est 
UPP-sans biais ce que nous mentionnerons au passage. 


Il y à un parallélisme étroit entre les sections 7.4.1 à 7.4.6 pour la construc- 
tion des intervalles de confiance usuels et les sections qui vont suivre. En effet 
le point de départ est identique. Pour un IC on met en évidence une statistique 
T telle qu’il existe une fonction g(T,0) dont la loi est indépendante de 0, ce 
qui permet un encadrement à un niveau de probabilité souhaité. Pour peu que 
cette fonction puisse pivoter (voir définition 7.3) on en déduit un encadrement 
de 4. Pour un test les choses sont plus simples car on spécifie 0 = 45 sous H6 et 
g(T, 80) devient une statistique de loi connue. Soit u,/2 et u1_,/2 les quantiles 
d'ordres respectifs «/2 et 1 — a/2 pour cette loi, on peut donner comme région 
d'acceptation À = {t|g(t,00) € [uaya, Ui_a/2]}. I n’y a donc pas nécessité à 
pivoter pour la fonction g(t,0) mais, en revanche, il faut souhaiter qu’elle soit 
monotone vis-à-vis de { pour que À soit un intervalle pour t. Le calcul de la 
puissance, par exemple en 0 = 61 : Po, (g(T, 60) € [ua/2; U1-a/2]), pourra toute- 
fois poser des difficultés dans la mesure où la statistique est ici g(T, do) et non 
pas g{T, 61) : la loi de g(T, 60) «sous 4» n’aura pas souvent une forme simple. 
Quoi qu’il en soit tous les tests mis en évidence ci-après seront convergents. 


En fin de chapitre nous reviendrons plus précisément sur le lien entre IC 
et tests et montrerons l’exploitation que l’on peut en faire. Nous proposons 
aussi dans la section des exercices quelques « exercices appliqués » permettant 
de voir des situations pratiques pour les tests usuels. 
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9.7.1 Tests sur la moyenne d’une loi W{, 0?) 
Cas où 0? est connu 


Considérons tout d’abord ce cas d'école simple. La statistique T' du cas 
général évoqué ci-dessus est la statistique exhaustive minimale X et la fonction 
g(T,0) est (X — u)/(a//n) de loi connue : W(0;1). Notons que ce point de 
départ est celui de la section 7.4.1. Aïnsi pour une hypothèse nulle À, : 4 = li 
vs. Hi : h Æ Lio on à, sous À : 


X — Jo 
o/vn 


re N(0;1). 


Comme : 


1-a=r?, (un < __ < 7) 
: vn 
= Pa (ae ar = <X<ho+a- 2%) 
F Va 
une région d’acceptation peut donc être définie, pour un test de risque &, par : 
A={ | Uo — 2-2 = <T< Ho + _ 
c Vr 


Ce test est UPP-sans biais, en vertu de la propriété mentionnée en section 9.4.3 
pour la classe exponentielle. Ici la fonction puissance h(4) peut être déterminée 
car la loi de (X — u9)/(o//n) reste gaussienne quand y est différent de wo. En 
effet : 


X — 
h() =1l- Py (4-0 < PCI < 7) 


li — Ho 


1 (are < DS +R <tron) 


=l-P, (EE -aun< à = He +aun) 


-1-0 (2e +2 fer ) 
PS cr TP 


où ® est la fonction de répartition de la loi de Gauss centrée-réduite. On montre 
que la fonction h(u) s'accroît de part et d’autre de wo à partir de la valeur «a 
(voir une illustration dans l'exercice 9.3). Par ailleurs on vérifie aisément que 
h(u) — 1 quand n — © aussi bien lorsque u > uo que lorsque 4 < jo ce qui 
démontre la convergence du test. 


Pour des hypothèses unilatérales, par exemple H6 : u < uo vs. Hi : u > bo, 
il est naturel de rejeter H, lorsque # est trop grand car cela reflète une moyenne 
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1 élevée. Pour déterminer la valeur critique on se place en 4 = o qui est la 
valeur la plus défavorable pour Ho (plus précisément, comme on l’a vu en 
section 9.4.2, le risque de première espèce est maximal en 4 = up). Comme : 


X — Jo 
— P, _ ——— ; 
Mae (a 1) 


on a pour région de rejet À = {7 | T > Ho + 1-a0/Vn}. Pour H5 : Hi > lo 
vs. Hi : u < jo la région de rejet sera À = {7 | T < do — z1-a 0/Vn}. 


Ces tests unilatéraux sont UPP comme vu en section 9.4.2 (voir exemple 
9.5). 


Cas où 0° est inconnu 


Passons maintenant à ce cas général et plus réaliste. Ici une statistique 
exhaustive minimale est nécessairement de dimension 2 et l’on prendra (X, S?). 
Mais on dispose d’une fonction à valeur dans R de loi connue quel que soit w, 
à savoir (X — u)/(S/,/n) de loi de Student t(n — 1). Ainsi pour une hypothèse 
nulle H5 : up = lo vs. Hi : u Æ Lo on a, sous H5 : 


X — lo 
S/Vn 


 t(n —1). 


Comme : 


.… (n—1) X- H0 (n—1) 
LS PB. Er Se a ) | 


une région de rejet peut être définie, pour un test de risque @, par : 


T — H0 (n—1) ,(n—1) 
s/Vn 2 [ti ae» ti_ap2l 


Pour des hypothèses bilatérales on aura, comme régions de rejet : 


(n—1) : 
Ed tilaj2 Pour Ho:h< ho, 


pour Ho: > ho. 


Le test bilatéral est UPP-sans biais de même que les tests unilatéraux (ces 
derniers ne sont qu'UPP-sans biais en raison de la présence du paramètre de 
nuisance o?). 


Qu'en est-il de la détermination de la fonction puissance de ce test de 
Student ? Par transcription du cas o? connu il nous faut calculer, pour y «dans 
H;» : 


(n—1) X — 0 (n—1) 
Ru) = Py Ce, < S/Vn $ ) . 
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Mais ici (X — Ho)/(S/n) ne suit plus une loi de Student car 40 n’est plus la 
moyenne de X. En écrivant : 


X — po _ À — Ho + (HU — Ho) 


S/vn S/vn 


on met en évidence le fait que cette statistique de test suit alors une loi de 
Student non centrale de paramètre de non centralité (4 — u0)/o, déjà ren- 
contrée dans l’exemple 9.8. Les tables des lois de Student non centrales sont 
volumineuses et peu répandues. Les logiciels pourraient faciliter la tâche mais 
rares sont ceux qui ont intégré ces calculs. Il existe également des abaques pour 
ce problème. 


Pour les mêmes raisons que celles indiquées lors de l’étude de l’IC sur la 
moyenne (voir section 7.4.1), ce test est robuste vis-à-vis de l'hypothèse gaus- 
sienne. De fait les praticiens l’utilisent sans se soucier de cette hypothèse. 


Pour ce qui concerne l’hypothèse : 
Ho : a SU < po vs. Hi : u < ji où nu > 


on à vu les difficultés de mise en oeuvre dans l’exemple 9.8. On a montré qu’en 

à _ 1 =: 1) 
rejetant HQ lorsque (7 — y1)/(5/Vn) < ei 2. ou (FT —u2)/(s/Vn) > po a 
on obtient un test conservateur de niveau @. Il n'existe pas de test UPP-sans 
biais dans ce cas. 


9.7.2 Test sur la variance 0? d’une loi W{(y, 0?) 


Nous supposons que y est inconnu et nous o intéressons à une hypothèse 
sur o?, par exemple H6 : o? = oë vs. Hi : o? £ aë. Ce test a déjà été traité dans 
l’exemple 9.7 via le rapport de vraisemblance sénéales. Nous allons retrouver 
le même test en développant l’approche directe analogue à celle de l’intervalle 
de confiance vue en section 7.4.2. Le point de départ est identique, à savoir le 
fait que : 

(n —1)5? 


-  xX°(n —1). 


o 
Sous AH, on à donc : 


2 (n-1 _ (n—1)S? 2 (n—1) \ 
P GS < a Xe. le 1—-a. 


On dispose donc d’une statistique de test (n — 1)S?/0$ et d’une région d’ac- 
4 2(n—1) 2 (n—1) 
ceptation [Xa 2 > Xi-a/2 ]. 
Ce test est UPP-sans biais, mais pour un choix précis de quantiles 

2 (n—1) 2 (n—1) El | 
Xo et Xi, tels que 1 + a2 = à (on montre que la condition à rem- 


plir, conformément à la note 9.3, est que la probabilité associée à l’intervalle 
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délimité par ces deux valeurs sur la loi x?(n + 1) soit égale à 1-a). Ce choix 
est compliqué et l’on s’en tient généralement au choix ci-dessus qui est assez 
proche. 


Pour l'hypothèse unilatérale Ho : a? < oë la région de rejet doit être intuiti- 


vement (n —1)S?/o8 > AU car une valeur élevée de $? rend H suspecte. 
Pour Ho : 0? > a? on rejette si (n — 12/02 < x2(" 1). Ces tests sont 


également UPP-sans biais. 


Rappelons que le résultat sur la distribution d’échantillonnage de 
(n —1)S?/a? est peu robuste vis-à-vis de l'hypothèse gaussienne et, par consé- 
quent, ces tests ne sont valables que si la loi mère est proche d’une loi de 
Gauss. 


À titre de curiosité, si la moyenne u était connue on utiliserait le fait que 


Dit a MES x°(n), 


les développements étant analogues aux précédents. 


9.7.3 Tests de comparaison des moyennes de deux lois de 
Gauss 


On est en présence de deux échantillons indépendants, l’un de taille 
n1, de moyenne X, et variance $?, issu d’une loi W{uw1,0?), l’autre de taille 
no, de moyenne X2 et variance SZ issu d’une loi W(y», 02). En général les deux 
moyennes des lois et les deux variances sont inconnues. On souhaite comparer 
les deux moyennes 1 et 2 sur la base des échantillons. Essentiellement, les 
questions qui se posent sont de savoir si l’on peut décider à un niveau de 
risque à donné si elles sont différentes (cas bilatéral) ou si l’une est supérieure 
à l’autre (cas unilatéral). Ce type de situation, bilatérale ou unilatérale, est 
très fréquent car on est souvent amené à comparer deux populations réelles ou 
virtuelles suivant leurs moyennes. Par exemple dans l’expérimentation clinique 
on veut démontrer l'efficacité d’un traitement en comparant un échantillon 
traité et un échantillon témoin. Prenant soin de sélectionner ces échantillons de 
façon qu’ils puissent, chacun, être considérés comme pris au hasard parmi les 
personnes présentant la pathologie à traiter, l'échantillon traité (respectivement 
l'échantillon témoin) peut alors être envisagé comme issu d’une population 
virtuelle de patients traités (respectivement de patients non traités). On se 
place ici dans une situation de test unilatérale, cherchant à voir si l’on peut 
décider que le traitement est efficace, en moyenne, selon un critère quantitatif 
approprié. Dans la mesure où le traitement ne peut qu’avoir soit aucun effet soit 
un effet nécessairement bénéfique, on pourrait se restreindre à une hypothèse 
nulle ponctuelle, par exemple H6 : 1 — po = 0 vs. Hi : 1 — po < 0, comme on 
le fait dans certains ouvrages. Cette restriction, comme on l’a vu en particulier 
en section 9.4.2, ne modifiant pas le niveau du test ni sa puissance par rapport 
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au test H6 : 1 — 2 < 0, nous en resterons à cette dernière hypothèse nulle qui 
est plus générale. 


C’est à ces tests de comparaison des moyennes que l’on doit l’expression 
«hypothèse nulle». Ceci est également le cas pour l'expression courante du 
praticien qui parle de «test significatif au niveau a» lorsque l’hypothèse nulle 
peut être rejetée à ce niveau. En effet ceci se dit par extension de l’idée qu’une 
différence de deux moyennes empiriques est ou n’est pas statistiquement 
significative selon que le test d'égalité des moyennes théoriques est rejeté ou 
accepté. 


Comme pour la construction d’un intervalle de confiance vue en section 
7.4.3, il n'existe pas de méthode exacte dans le cas général où 0? # 3, mais 
une procédure asymptotique que nous présenterons par la suite. On suppose 
donc pour l’heure que les deux lois ont même variance o°. Dès lors notre 
point de départ est le même que celui de la section 7.4.3 avec le résultat général 
suivant : 


SV ++ 


Ni + N2 — 2 


est un estimateur sans biais de la variance commune o2. 


Référons-nous tout d’abord au cas bilatéral : A5 : 1 = ua vs. Hi : ln Æ pu. 
Sous A, la statistique (X1 — X2)/S),/ + + + suit done une loi é(n1 + n2 — 2) 
ce qui permet de définir une région de rejet, pour un test de risque @, par : 


sa fn Dé + (ns Ds 


n1+n2—2 n1+n2—2 
A Ne UD 


Ni + No — 2 


Pour la situation unilatérale H6 : ui < po vs. Hi : ui > 2, on voit 
intuitivement qu’il faut rejeter uniquement dans | ur a? +ol[. Au-delà de 
l'intuition, on peut montrer que les résultats propres au test sur la moyenne 
d’un seul échantillon s'étendent à la situation présente. Notamment, avec une 
telle région de rejet, le risque & maximal est atteint pour 1 = 2 et le test 
proposé est donc bien de niveau à. Pour A, : 1 > 2 vs. Hi : ju < Ja le rejet 
se fait dans ] — oo, See?) [. 

Ces tests sont UPP-sans biais mais la détermination même de la fonction 
puissance n’est pas formellement possible. Par ailleurs, l'approche par le rap- 
port de vraisemblance est équivalente (voir exercices). 


Pour ce qui concerne la robustesse de ce test vis-à-vis des conditions de lois 
gaussiennes et d'égalité des variances, les considérations de la section 7.4.3 pour 
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l'intervalle de confiance restent valables. Rappelons brièvement que, comme 
pour un seul échantillon, les conditions de distributions gaussiennes ne sont pas 
cruciales et, d’autre part, que celle d'égalité des variances peut être assouplie 
dans la mesure où les tailles d'échantillons restent du même ordre. À la lumière 
des développements de ce chapitre, il est intéressant de revenir sur la pratique 
mentionnée en section 7.4.3, consistant à effectuer le test de la section suivante 
pour décider de l'égalité des variances. Cette approche, pour être rassurante 
pour le praticien, n'offre pas une garantie absolue de l’applicabilité du test 
de Student ci-dessus. En effet nous savons maintenant que l’acceptation d’une 
hypothèse ne signifie pas qu’elle soit vraie, le risque d’erreur de deuxième espèce 
n'étant pas contrôlé. 


Si les deux lois mères n’ont pas même variance on peut utiliser, 
comme pour l'intervalle de confiance, le fait que, pour de grands échantillons 
(n1 et n2 supérieurs à 100) : 


(Xi — X2) — (1 — 2) 


S2 S2 approx 
ni n2 


N(0;1). 


Ainsi, à un niveau approximativement égal à @, on à, par exemple dans le cas 
bilatéral, la règle de rejet : 


yes x —21-a/2: 21-a ; 
de 52 # 1 /2 1 /2l 


ces quantiles étant lus sur la loi W(0;1). Pour des tailles d'échantillons plus 
faibles il existe des formules d’approximation dont l’usage n’est pas très répandu. 


On peut étendre les résultats ci-dessus au test d’hypothèses nulles du type 
Ho : ju — ho = Ào, Ho : Hi — Ho < Ao où H6 : ji — ua > AÀo. Il suffit pour 
cela de retrancher la valeur À, à celle de 71 — 72. En revanche le test bilatéral 
Ho : [ui — ol < Ao vs. [ui — ol > Ao pose des difficultés majeures. On peut 
toutefois recourir à un test conservateur simple d’une façon tout à fait analogue 
à celle exposée en fin de section 9.7.1 pour une moyenne. 


Cas d’échantillons appariés 


Cette situation a été décrite en section 7.4.3. Comme pour l'intervalle de 
confiance on se ramène au cas d’un seul échantillon en étudiant la série des 
différences entre paires. Soit d et s4 respectivement la moyenne et l’écart-type 
observés pour ces paires, le test se fonde sur la réalisation : 


he 
sa/ Vn 


où n est le nombre de paires. Les quantiles définissant les valeurs critiques sont 
à lire sur une loi de Student à n — 1 degrés de liberté. Toutes les considérations 
de la section 9.7.1 restent valables. 
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9.7.4 Tests de comparaison des variances de deux lois de 
Gauss 


Avec les mêmes notations qu’à la section précédente on a établi, en section 
5.5, le résultat général suivant : 
2j. 0 

ST/oi 

2 72 

55/05 


me Fri —1,n2 —1). 


Ceci est particulièrement approprié pour tester l’égalité des variances selon 
Ho : 0?/o3 = 1 vs. Hi : o?/0$ # 1. En effet, sous H, la statistique 57/52 suit 
la loi de Fisher mentionnée ci-dessus. La règle de rejet au niveau a sera donc : 


ni—l,n2—1l ni—l,n2—1l 
82 Fe ” Per De 


Rappelons pour l’usage des tables que le quantile LS RE est égal à 
(n2—1,n1—1) 
Re J2 : 
Ce résultat étant peu robuste par rapport aux conditions gaussiennes, son 
intérêt est limité. 


9.7.5 Tests sur le paramètre p d’une loi de Bernoulli (ou 
test sur une proportion) 


Les applications de ces tests sont multiples dès lors que l’on veut étudier un 
caractère binaire dans une population. Citons notamment le contrôle de qualité 
où l’on souhaite vérifier si le taux de produits défectueux ne dépasse pas une 
valeur donnée. 


Le test d’une hypothèse unilatérale a déjà été abordé à la suite de l’exemple 
9.6. On a vu que le test UPP repose sur le nombre total de succès observé. Pour 
H5 : p < po vs. Hi : p > po, par exemple, on rejette si ce nombre est trop élevé 
et la valeur critique se lit sur la loi B(n, po). Étant donné le caractère discret 
de cette loi, le test n’est UPP que dans la mesure où l’on introduit une règle de 
rejet randomisée afin d’obtenir un risque exactement égal à a (voir note 9.1). 
Pour l’hypothèse bilatérale H9 : p = po vs. Hi : p Æ po on a un test UPP-sans 
biais en choisissant deux quantiles extrêmes sur la loi B(n,po) vérifiant une 
contrainte difficile à mettre en pratique. On préfère donc utiliser des quantiles 
correspondant au plus proche, et de façon conservatrice, à une équirépartition 
sur chaque extrémité de cette loi. Cette approche a les mêmes fondements que 
l’approche des intervalles de confiance par la méthode des quantiles présentée 
en section 7.5. 


On peut également utiliser une approximation gaussienne comme pour l’in- 
tervalle de confiance. La condition d’applicabilité que nous avions retenue est 
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np(1 — 9) > 12. Mais ici, sous Ho, la valeur de p est donnée et nous pou- 
vons prendre la condition npo > 5 et n(1 — po) > 5 indiquée en section 5.8.3 
(toutefois, étant donné que l’on veut une bonne précision sur des quantiles 
aux extrémités de la loi ces conditions sont souvent renforcées, par exemple en 
exigeant npo(l — po) > 10). Alors la statistique P, proportion de succès dans 
l'échantillon, est telle que, sous À : 

I esse N(0;1). 

po(l ee po) approx 
n 


D'où l’on déduit, par exemple pour le cas bilatéral, la règle de rejet : 


P — po de 
1—-a/2 » 21 a/2 
Te — po) 


n 
où p est la proportion de succès dans l’échantillon réalisé. 


Notons que cette approche est en correspondance avec celle de la procédure 
d'IC conduisant à la résolution d’une inégalité du second degré (voir section 
7.4.5), mais pas avec celle de la formule classique où p(1 — p) est estimé par 
P(1 — D), ce qui n’est pas nécessaire ici puisque p est spécifié sous Ho. Ce- 
pendant il est intéressant de noter qu’en substituant D(1 — D) à po(l — po) la 
statistique ci-dessus est quasiment identique à la statistique de Student pour le 
test sur une moyenne. En effet grâce au codage 1/0, la moyenne de l’échantillon 
T1, %2,-*" ,&n est P et la variance empirique est (en remarquant que >, x? 
est le nombre de succès) : 


1 ST ir. pb A ls 
Fed a -p=p-p =). 


Il ne manque qu’un facteur 4/n/(n — 1) pour retrouver l’écart-type de l’échan- 
tillon plutôt que l’écart-type empirique. 


On a donc avantage, dans un fichier de données, à utiliser ce codage 1/0 
pour une variable binaire car certains logiciels rudimentaires ne proposent que 
le test de Student (le fait que la P-valeur soit calculée sur la loi de Student 
plutôt que sur la loi de Gauss ne posant pas de problème puisque cela va dans 
le sens conservateur). 


On peut voir aussi le test par approximation gaussienne comme une appli- 
cation du résultat asymptotique de l’estimateur du maximum de vraisemblance 
P pour p, mentionnée en section 9.6, car l'information de Fisher Z(po) est égale 
à | po(1 — po)] ! pour la loi de Bernoulli. 
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Par ailleurs, pour le cas bilatéral, le test du RVG ne donne ni le test exact ni 
le test approché ci-dessus mais on verra qu’il est asymptotiquement équivalent 
au test du khi-deux, lui-même identique au test approché (voir sections 10.1.3 
et 10.1.4). 


9.7.6 Tests de comparaison des paramètres de deux lois 
de Bernoulli (comparaison de deux proportions) 


La comparaison de deux proportions à partir de deux échantillons indépen- 
dants est très fréquente, au même titre que la comparaison de deux moyennes. 
Elle s’applique également à l’étude de l'efficacité d’un traitement par rapport 
à un autre (ou en l’absence de traitement avec un échantillon témoin) lorsque 
cette efficacité est évaluée par un critère binaire, par exemple la guérison ou 
non guérison d’un patient. Pour les mêmes raisons que celles invoquées en 
section 9.7.3, dans la mesure où le traitement ne saurait avoir d'effet négatif 
par rapport à une absence de traitement, on pourrait se restreindre à une 
hypothèse nulle ponctuelle H4 : p1 — p2 = 0 avec une hypothèse alternative 
unilatérale. Ici également on conclura en déclarant que la différence est ou 
n’est pas significative à un niveau donné. 


Soit S1 et S2 les statistiques exhaustives minimales des nombres de succès 
parmi les n1 et n2 observations respectives de chaque échantillon. On obtient un 
test UPP-sans biais en utilisant la loi conditionnelle de $; (ou de S2) sachant 
Si + S2. Montrons tout d’abord que, sous Ho : p1 = p2, cette loi est une loi 
hypergéométrique et notons p = p1 = p2 sous cette hypothèse nulle. 


Rappelons (voir section 4.1.3) que si S1 > B(n1,p) et S2 <> B(n2,p), alors 
Si + S2 2 B(ni + n2,p). On a donc : 


Si = x, Sa =t-—x) 
P(S; + So = t) 


n n 
( Dpt on | }oû si US 
x nt 
F OT _ pyratract 
n1 n2 
__\x t—x 
_ Ni +2 
t 
qui est le terme général de la fonction de probabilité de la loi H(n1 + n2,t,n1) 
selon les notations de la section 4.1.5. 


P 
P(S1 =x|S1 + 52 =t) = ( 
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Le test UPP-sans biais est défini, par exemple dans le cas bilatéral, par une 
région de rejet de la forme 51 & [co , C1-a] OÙ Cas €t C1-a) Sont des quantiles 
d'ordres a1 et 1 — @2 tels que @1 + &2 = à, issus de la loi H(n1 + n2,s1 + 
52,n1) où 51 et s2 sont les nombres de succès observés sur les échantillons 
réalisés. On montrera en section 10.3.2 (note 10.3) qu’un test défini, comme 
celui-ci, conditionnellement à une statistique exhaustive sous Ho (ce qu’est 
Si + S2 ici) est légitime au sens où il s’agit bien d’un test de niveau « non 
conditionnellement. 


Les calculs à la main sont très fastidieux mais certains logiciels donnent 
la P-valeur pour ce test. On peut également utiliser le test exact de Fisher 
pour l’indépendance de deux v.a. binaires dont les calculs sont parfaitement 
identiques (voir section 10.3.2 et exemple 10.1 pour la mise en oeuvre). 


La puissance est difficilement accessible pour une alternative quelconque 
(toutefois elle peut être calculée en fonction du rapport des chances - en anglais : 
odds ratio - | p2/(1— p2)|/[ p1/(1 — p1)] dont dépend la loi conditionnelle de S: 
sachant S; + S, sous H;). 


Dès lors que l’approximation gaussienne vaut pour chaque échantillon on 
utilise une formulation approchée simple. Les conditions de validité que nous 
retenons sont n1P1(1 — 1) > 12 et n2P2(1 — P2) > 12 où Pr et P2 sont les 
proportions de succès observées. On a établi pour l’IC correspondant (voir 
section 7.4.6) la loi approximative de Pb 


= 2 L= L— 
PPS N (on el p1) | Pal m)), 


approx ni na 


ce qui donne sous À : 


S 2 1 1 
BB pe, N(0ipt-n( + 2). 
approx ni ne 
Toutefois la valeur de p est inconnue et doit être estimée par la proportion de 
succès dans les deux échantillons fusionnés, i.e. 


81 + 82 N1P1 FT N2P2 


D = = 
N1 + No N1 + 2 


d’où, finalement, la région de rejet (cas bilatéral) : 


Pi — P: 
= £ g 21-a/2 » 21 a/2]- 
= RTE! 1 
PAPIER 
ni n2 


On montrera dans le cadre plus général de la comparaison de lois multino- 
miales (voir section 10.2) que ce test bilatéral est identique au test classique 
du khi-deux. 
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Par ailleurs, pour le cas bilatéral, le test du RVG ne donne ni le test exact ni 
ce test approché mais on verra (section 10.2) que la forme de la statistique du 
rapport de vraisemblance est asymptotiquement équivalente à celle de la statis- 
tique du khi-deux, donc de la statistique ci-dessus obtenue par approximation 
gaussienne. 


Notons bien que ces tests ne sont valables que pour des échantillons in- 
dépendants. Pour des échantillons appariés citons simplement le test de 
McNemar (la construction de ce test est proposée dans un exercice du chapitre 
10). Il s’appliquera dans les enquêtes, par exemple, pour tester s’il y a une 
évolution significative dans la réponse à une certaine modalité d’une question 
pour un même échantillon réinterrogé après un certain laps de temps (situation 
de mesures répétées). 


Note 9.6  Comparaiïsons de proportions au sein d’un même 
échantillon 


On peut vouloir tester l'égalité de deux proportions entre deux sous-échan- 
tillons. Par exemple tester que le pourcentage de réponses à une modalité d’une 
question dans une enquête est le même pour les femmes et pour les hommes. 
Nous ne sommes plus dans le schéma précédent du fait que n1 et n2 (fréquences 
des femmes et fréquences des hommes) ne sont plus fixées a priori mais sont des 
variables aléatoires. En réalité, il s’agit ici d’un test d'indépendance entre la 
variable sexe et le choix ou non de la modalité de réponse. Ce test sera présenté 
en section 10.3 où l’on verra que statistique de test et région critique seront, 
en fait, identiques à celles des tests présentés ci-dessus, que ce soit pour le test 
exact ou pour le test par approximation gaussienne. 


On peut encore vouloir comparer les pourcentages de réponses p1 et p2 
pour deux modalités distinctes d’une même question. Par exemple, dans un 
sondage aléatoire sur les intentions de vote, voir si les pourcentages obtenus 
par deux candidats diffèrent ou non de façon statistiquement significative. 
Ici on est dans le cas d’une loi multinomiale (il y a plusieurs modalités de 
réponse à la question) et les fréquences observées ne sont pas indépendantes. 
Soit N; et N2 ces fréquences aléatoires, nous avons vu en section 4.1.6 que 
cov(N1, N2) = —NpPiP2; d’où pour les proportions observées B, = Ni/n et 
BP N/n : cov(P, P>) = —p1p2/n. La variance de BP, - P, est donc égale à : 


k À = 2 1 — 1- 2 
VE Ve) at) = EP 7 AP). 2218 
n n n 
Sous Ho : p1 = p2 = p on a, en admettant que la loi de PB, — D; soit toujours 
approximativement gaussienne : 
s 2 2 
PER RE ON (o: Ë #) 


approx n 
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où p doit être estimé, un estimateur naturel étant P = (N; + N2)/2n qui est 
sans biais. Dans le cas bilatéral on rejettera Ho si (cas bilatéral) : 


Pi —P 
| e £ [-Z1-a/2 = a8l: 
Fe 

n 


9.7.7 Test sur la corrélation dans un couple gaussien 


Soit le couple aléatoire (X, Y) de loi gaussienne bivariée. Pour le cas général 
d’un vecteur gaussien dans R? on a vu en section 3.9 que la densité conjointe 


de ses composantes au point (21,%2,--- ,x,) € RP est : 
: 1 1 pi 
fx(t1,%2, Es) DS (27)r/2(det )1/2 exp{ 5 (x u) (x — y)} 


où y est le vecteur des moyennes et X est la matrice des variances-covariances. 
Pour un couple (p = 2) on a : 


2 
1 œ 10 
L _ LH et > = 1 P : 2 
H2 PT102 02 
où p0102 est la covariance des deux composantes et p est leur corrélation linéaire 


(voir définition 3.6). La loi de (X,Y) dépend donc de cinq paramètres et la 
densité conjointe s'écrit : 


fx,y (x, y) = 


2 2 
1 1 zu zh y=u)\  (y-u 
2r01024/1—p? FR { 2(1—p?) ( LE :) 2p ( 94 :) ( 92 :) ( 92 +) | } ‘ 


On considère un échantillon de taille n : (X1,Y1),(X2,Y2),--: ,(Xn, Ya) 
issu de cette loi dont les cinq paramètres sont inconnus et l’on souhaite tester 
l’hypothèse nulle d'indépendance des deux composantes. Comme il a été vu en 
section 3.6 ceci équivaut à tester que la corrélation est nulle, soit : 


Ho:p=0 vs H:pZ#0. 


A partir de l'expression [[!_, fx. (æ:, y:) de la densité conjointe de l'échantillon 
on peut établir l'expression du rapport de vraisemblance généralisé et mon- 
trer (non sans difficultés) qu’elle ne dépend des observations qu’à travers la 
réalisation r de la corrélation linéaire empirique définie en section 5.2 


7 
I 
Î 
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la région de rejet À < k étant équivalente à |r| > #', ce qui semble naturel. On 
utilise plutôt comme statistique de test la fonction croissante de R : 


Vn—-2R 
VF 


qui offre l’avantage de suivre simplement une loi de Student à n — 2 degrés de 
liberté sous Ho (une démonstration sera donnée en section 11.2.6). On rejette 


core Le a nee a si la réalisation t de T tombe en dehors de l'intervalle 
n—2 n—2 
ls ti a/2? ta fol- 


L— 


Note 9.7 À partir de la loi de Ton peut, par simple changement de variable, 
établir la loi de À sous H4 et montrer que sa fonction de densité est : 


T(>) 
RO ETES) 


dar 4 Re ELA 


Cette forme n’est pas sans rappeler celle d’une loi bêta. En fait on peut voir 
aisément que le coefficient de détermination R? suit une loi Beta(0,(n-4)/2) et 
il est équivalent de fonder le test sur la réalisation r? de ce coefficient avec un 
rejet pour r? > G_4 Où GA est un quantile de cette loi. 


On peut également déterminer l'expression de la densité de R pour p quel- 
conque et établir la fonction puissance du test. Signalons que la loi de R ne 
dépend que du paramètre p, que E(R) = p+O(2) et que V(R) = SE LE DE +o(1). 
R est donc un estimateur biaisé de r pour n fini, mais il est asymptotiquement 
sans biais et convergent en moyenne quadratique (et presque sûrement en tant 
que fonction continue de moments empiriques). On démontrera également en 
section 11.2.6 que À est l’estimateur du maximum de vraisemblance de p. 


Fisher à établi un résultat asymptotique pour p quelconque : 


di. Lun is Has À 
=) os 1 
enr 2 le vec 


) 


qui autorise un test approximatif pour une hypothèse générale H6 : p = po 
(bilatérale ou unilatérale). 


Pour ces tests l'hypothèse d’une loi gaussienne pour le couple est essentielle 
et les résultats obtenus sont assez peu robustes. Si cette condition est dou- 
teuse on pourra se tourner vers une procédure non paramétrique telle que le 
test sur la corrélation des rangs de Spearman (voir section 10.5.5). Rappelons 
qu’en dehors de la loi de Gauss l’hypothèse nulle ne signifie qu’une absence 
de corrélation et non pas l’indépendance des deux composantes du couple. 
Pour tester l’indépendance on pourra recourir au test concernant les variables 
catégorielles (voir section 10.3) en découpant X et Y en classes. 
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9.8 Dualité entre tests et intervalles de confiance 


La présentation des tests usuels à permis de voir que ces procédures et celles 
utilisées pour la construction d’intervalles de confiance sont très voisines. Nous 
allons voir que l’on peut même établir une sorte d’équivalence entre celles-ci. 
Montrons-le sur un exemple avant de passer au cas général. 


Considérons le test Ho : u = lo vs. Hi : jp Z Lo pour une loi mère W(y, a?) 
où (4,0?) est inconnu. On accepte H9 au niveau a si et seulement si : 


(n—1) T — 0 (n—1) 
1-a/2 < s/Vn < ti-aj2? 


ce que l’on peut écrire de façon équivalente : 


—t 


_ (n—1) $ 2 (n—1) $ 

Dee af 7 < Ho <T+ af 7 ‘ 
Ainsi pour qu'une valeur de y hypothétique soit acceptée il faut et il suffit 
qu’elle soit dans l'intervalle [T CE à 7 ,T+ CE Ah c’est-à-dire qu’elle 
soit comprise dans l’intervalle de confiance de niveau 1 — & pour la moyenne 
inconnue y. Il y a donc équivalence pour 4 entre le fait de prendre une valeur 
acceptée dans le test de niveau @ et le fait d’être situé dans l’intervalle de 
confiance de niveau 1 — a. On peut donc voir aussi l’IC comme l’ensemble des 


valeurs acceptées par le test. Essayons de formaliser cela dans la généralité. 


IC dérivé d’un test 


Soit pour l’hypothèse nulle H5 : 0 — un test de niveau «a défini par 
la région d'acceptation A(4) € R” donc telle que P,(A(00)) = 1 — a. Fai- 
sant varier 00 dans ®, on peut ainsi construire, pour chaque valeur de 0 € 6, 
une région d'acceptation qui dépend de cette valeur, notée A(8) et telle que 
Py(A(8)) = 1-— a. 


Soit maintenant une région de © construite de la façon suivante sur la base 
d’une réalisation (41,æ%2,--: ,+,). On considère chaque valeur de 4 dans 6 et 
l’on inclut cette valeur dans la région si et seulement si (41,%2,--- ,x,) € A(0). 
Passant à l'univers des réalisations possibles  symbolisé par 
(X1,X2,:-:, Xn), la région ainsi définie devient aléatoire. Or, pour un @ donné, 
la probabilité que (X1, X2,---, X,) appartienne à A(0) est égale à 1 — & par 
construction même de A(4). Comme il y a identité entre cet événement et le 
fait d'inclure cette valeur de 0 dans la région de ®, la probabilité que 0 soit 
compris dans cette région (aléatoire) est égale à 1 — &. Ainsi on à construit une 
procédure de région de confiance de niveau 1 — à pour le paramètre inconnu 6. 
Quand 6 CR cette région sera généralement un intervalle quel que soit 4 et 
on aura une procédure d'intervalle de confiance. 


On peut montrer que les propriétés d’optimalité du test se transfèrent à 
la procédure d’IC. Aïnsi un test UPP donnera une procédure uniformément 
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plus précise (voir section 7.7). Un test sans biais impliquera que la procédure 
fournira une probabilité plus faible d’inclure une fausse valeur de 4 que d’inclure 
la vraie valeur. En général si l’alternative est bilatérale la région d'acceptation 
est un intervalle à bornes finies et il en est de même pour l’IC. Une alternative 
unilatérale conduira à un intervalle de confiance ouvert sur l’infini pour un côté. 


Dans le cas discret la dualité n’est valable qu’en «randomisant» les bornes 
de l'intervalle. Il sera toutefois plus simple de partir de régions d’acceptation 
conservatrices pour aboutir à un IC de niveau de confiance supérieur ou égal à 
1—- a. 


Pour illustrer l'intérêt de cette dualité prenons la méthode du test par le 
rapport de vraisemblance (généralisé) avec @ € R. En vertu de ses propriétés 
asymptotiques on a une région d'acceptation au niveau approximatif a définie 
par (voir note 9.4) : 


2 (1 

2MAGETS TRI S Xe 
21%2(@) 
où. Arts) e rte 


12 (1) = 
Es 2e F0 es 


IV 


ou  f(0:%1,%2,.., Zn) 


Pour un échantillon réalisé &1,%2,--: ,x, on en déduit une région de confiance 
de niveau 1—a en considérant l’ensemble des valeurs de 0 vérifiant cette dernière 
inégalité, cette région étant généralement un intervalle étant donné les pro- 
priétés du RVG. Ainsi avec à —0,05, on obtient un IC de niveau approximatif 
0,95 contenant les valeurs de 4 pour lesquelles la densité (ou la fonction de 
probabilité) conjointe aux valeurs observées 21,%2,-:: ,x, n’est pas inférieure 
à 0,147 fois leur densité maximale fn: T1, T9, Tr) atteinte au maximum de 
vraisemblance 0, (voir note 9.4). Ceci est représenté sur la figure 9.2. 


D'un point de vue numérique on voit qu’il suffit de connaître l’expression 
de la densité (ou de la fonction de probabilité) conjointe des observations pour 
donner un intervalle de confiance approximatif sur le paramètre inconnu. 


Test dérivé d’un IC 


On peut également envisager une démarche inverse permettant de débou- 
cher sur un test à partir d’une procédure d’IC. Soit une famille d’intervalles 
[t1(21,d2,.., n) ,ta(a1, 2, .…, æn)] définie pour toute réalisation (æ1,%2,..., Zn), 
Où t1(21,22,...,Æn) et t2(21,%2,..,&n) sont à valeurs dans 6 C R, issue d’une 
procédure d’IC de niveau 1 — @. 


Pour tout 9 on peut définir un test H5 : 0 — 0 consistant à accepter 
Ho si et seulement si 4 appartient à [f1(41,%2,...,Æn),t2(t41,%2,..,%,)]. Par 
construction de la procédure d’IC, pour toute valeur de 0 on a : 


P9(0 € [1 (X1, Xe, > Xn);t2(X1, Xo,--: > Xn)]) =1l-a. 
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L(6) 


0,147L(6,) 


ll 


G=— IC ——— 6, 


0,95 


Figure 9.2 - Intervalle de confiance dérivé du test du rapport de vraisemblance 
généralisé. 


Ceci est vrai en particulier pour 40 et la probabilité d'accepter cette valeur sous 
H, est aussi égale à 1 — a. On a bien un test de niveau a. 


Ainsi, par exemple, on peut recourir à la méthode des quantiles (voir section 
7.5), facile à mettre en oeuvre, pour tester une valeur de 8 : il suffit de voir si 
cette valeur est ou non à l’intérieur des limites de confiance. En particulier les 
abaques de confiance pour le paramètre p de la loi de Bernoulli ou À de la loi 
de Poisson peuvent être utilisés dans cette optique. 


Nous concluons en disant qu’un intervalle de confiance donne une infor- 
mation plus riche qu’un simple test car il indique l’ensemble des valeurs qui 
seraient acceptables via le test dual. 


Pour approfondir la théorie des tests on pourra consulter l’ouvrage de 
référence de Lehmann (1986) ou celui de Shao (1999). Par ailleurs on trouvera 
dans le livre de Saporta (1990) un vaste éventail de méthodes où s’appliquent 
les tests les plus divers. 


9.9 Exercices 


Exercice 9.1 Soit X1,X2,--:,X, issus d’une loi €(À). On souhaite tester 
Ho : À = 1/2 vs. H1 : À = 1. Quelle est la région de rejet au niveau 0,05 pour 
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le test du RV simple ? 
Aide : on pourra utiliser le fait qu’une loi l'(n, 1/2) est une loi x?(2n). 


Exercice 9.2 Soit un échantillon aléatoire X1, X2, … , X, issu d’une loi géo- 
métrique de paramètre inconnu p dont nous rappelons la fonction de probabi- 
lité : 

f(x;p) = p(1—p}"; x —0,1,2,.. 


Expliquer pourquoi >, X; suit une loi binomiale négative de paramètres n 
1 2 

et p. Soit à tester H5 : p — 3 versus À : p = —. 

Montrer que la région critique pour le test fondé sur le rapport de vraisemblance 

est de la forme D, 2; < k. 

Donner la règle de décision pour n = 4 et a = 0,05. 

Quelle est la puissance de ce test ? 


Exercice 9.3 Soit X1,X2,---,X, issus de la loi W(u,1). Pour tester Ho : 
u <5 vs. H; : j > 5 on adopte la région de rejet : 


7) 1 

{(21,%0,--- Da) | T > 5 + né 

Quel est le risque de première espèce de ce test ? Déterminer sa fonction puis- 
sance. 


Exercice 9.4 Soit la famille de lois de Pareto de paramètres a connu et @ 
inconnu (voir section 4.2.6). Montrer qu’elle est à RV monotone. En déduire le 
test UPP pour H6 : 0 > 0 vs. Hi : 0 < 6. 
Application : pour a = 1 construire le test de l’hypothèse nulle : la moyenne 
de la loi est inférieure ou égale à 2. (aide : la moyenne est 0a/(0 — 1)). 
Exprimer la valeur critique pour a = 0,05. 

Aide : montrer que In X suit une loi exponentielle. 


Exercice 9.5 Soit la famille de lois {{[0, 0] de paramètre 0 inconnu. Montrer 
qu’elle est à rapport de vraisemblance non croissant. En déduire un test UPP 
de niveau a > 0 pour des alternatives unilatérales sur 4. 


Exercice 9.6 Soit la situation du tirage sans remise de n individus dans une 
population de N individus dont M ont un certain caractère, M étant inconnu. 
On considère le nombre X  H(N,M,n) d'individus ayant ce caractère dans 
un échantillon de taille n. 
Soit l'hypothèse H6 : M > Mo vs. Hi : M < Mo, montrer que le test avec 
région de rejet x < cà, où ca est le quantile d’ordre a sur la loi H(N, Mo,n), 
est UPP. 

Aide : montrer que la famille des lois hypergéométriques avec M inconnu 
est à rapport de vraisemblance croissant. Pour cela il suffira de montrer que 
L(M +1;x)/L(M; x) est une fonction croissante de x. 
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Exercice 9.7 Soit la famille de lois exponentielles £(À). Sur la base d’une seule 
observation donner, en accord avec la note 9.3, les deux équations conduisant 
au choix des valeurs critiques pour le test UPP parmi les tests sans biais de 
Ho : À = o vs. Hi : À À Ào. Montrer que la région de rejet n’est pas répartie 
de façon égale selon un risque de première espèce «/2 sur chaque extrémité 
(on pourra constater que le déséquilibre peut être très prononcé sur un cas 
particulier en se donnant À5 et @, et en recourant à un logiciel de résolution 
d'équations). 


Exercice 9.8 Soit une loi mère W{u, o?), où y est inconnu mais o? est connu, 
et la situation de test Ho : 1 < pu < po vs. Hi : u < ju où u > 2. Déterminer 
la forme de la région de rejet pour le test du RVG au niveau a. En admettant 
que le risque de première espèce est maximal en u = 1 et H — 2, et en 
prenant naturellement des valeurs critiques symétriques par rapport à titre 
donner l’équation définissant ces valeurs critiques (ceci correspond au test UPP 
parmi les tests sans biais). Application : résoudre approximativement l'équation 
pour y = 4, go = 5, o? = 1 et à = 0,05. Tracer en un seul graphe la fonction 
puissance (avec un choix de n) et la variation du risque de première espèce. 

Déduire du test précédent le test UPP-sans biais pour H5 : u = Ho vs. 
Hi : u # lo et o? connu. Montrer également que, dans ce cas, la loi asympto- 
tique de —2 In À,,, où À, est le RVG, est en fait la loi exacte. 


Exercice 9.9 Soit à tester Ho : À = Ào vs. Hi : À Æ o pour le paramètre À 
de la loi E(X) à partir d’un échantillon de taille n. Établir formellement le test 
du RVG. Application : établir le test pour À = 1/4 et n — 30 en utilisant la 
loi asymptotique du RVG. 


Exercice 9.10 Soit une loi (de Raleigh) de densité f(x; a) = 2ax exp{—ax?}, 
æ > 0, a > 0. Donner la statistique du RVG pour tester H5 : a = 1 vs. 
H :ax1. 


Exercice 9.11 Soit la loi de Pareto de paramètre a = 2 et 0 inconnu. Donner 
le test du RVG pour H5 : 0 =3 vs. H: : 0 ZÆ3 en utilisant la loi asymptotique 
du RVG. Application : n = 30, De In x; = 31. 


Exercice 9.12 Soit une loi mère P(ÀA) où À est inconnu. On veut tester Ho : 
À = )o vs. Hi : À Æ Xo. Montrer que la région de rejet pour le test du RVG est 
de la forme T & [c1,c2] avec une certaine contrainte liant «1 et co. 

Application : pour Ào = 5 et n — 10 résoudre au plus proche de la solution du 
RVG en utilisant une région de rejet conservatrice par rapport au niveau 0,05. 
Calculer le niveau exact de cette règle. 

* Construire une règle de rejet «randomisée» selon le principe de la note 9.1. 


Exercice 9.13 Montrer que le test du RVG conduit à la même statistique de 
test que le test classique de Student vu en section 9.7.1 pour le test sur la 
moyenne d’une loi de Gauss. 
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Exercices appliqués: 


Exercice 9.14 Un producteur de pneus envisage de changer la méthode de 
fabrication. La distribution de la durée de vie de ses pneus traditionnels est 
connue : moyenne 64 000 km, écart-type 8000 km ; elle est pratiquement gaus- 
sienne. Dix pneus sont fabriqués avec la nouvelle méthode et une moyenne de 
67 300 km est constatée. En supposant que la nouvelle fabrication donnerait 
une distribution à peu près gaussienne et de même variance, testez l'efficacité 
de la nouvelle méthode au niveau & = 0,05. Tracez la fonction puissance de ce 
test. 

(aide : test de Ho : ji < lo) 


Exercice 9.15 Une étude approfondie a évalué à 69 800 euros/an le revenu 
moyen imposable par ménage résidant à Neuilly-sur-Seine. Une enquête est 
effectuée auprès de 500 ménages pris au hasard, afin de contrôler le résultat 
de l'étude. Dans l’enquête on trouve une moyenne de 68 750 euros/an avec un 
écart-type de 10 350 euros/an. Quelle est la P-valeur associée aux résultats du 
contrôle ? 

(aide : test de Ho : u = lo) 


Exercice 9.16 En un point de captage d’une source on a répété six mesures 
du taux d’oxygène dissous dans l’eau (en parties par million). On a trouvé : 


4,92 5,10 4,93 5,02 5,06 4,71 


La norme en dessous de laquelle on ne doit pas descendre pour la potabilité 
de l’eau est 5 ppm. Au vu des observations effectuées peut-on avec un faible 
risque d’erreur affirmer que l’eau n’est pas potable (admettre une distribution 
quasi-gaussienne des aléas des mesures) ? 

(aide : test de Ho : u > Lo) 


Exercice 9.17 Un service chargé de traiter des formulaires standard utilise un 
réseau de dix micro-ordinateurs et une imprimante. Le temps moyen d'attente 
en impression d’un formulaire est de 42,5 secondes (le temps entre l’envoi de la 
commande d'impression et la réalisation de l'impression du formulaire). 


Dix nouveaux micros et une imprimante sont ajoutés au réseau. Sur trente 
demandes d’impression dans cette nouvelle configuration on a constaté un 
temps moyen de 39,0 secondes et un écart-type de 8,2 secondes. 

Tester l'hypothèse que le temps moyen d'impression n’a pas été affecté par 
l'accroissement du réseau. 

(aide : test de Ho : ji = lo) 


3Un ou deux de ces exercices appliqués sont des adaptations d'emprunts dont nous ne 
sommes plus en mesure de retrouver la source. Nous nous en excusons auprès des involontaires 
contributeurs. 
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Exercice 9.18 On veut tester la précision d’une méthode de mesure d’al- 
coolémie sur un échantillon sanguin. La précision est définie comme étant 
égale à deux fois l’écart-type de l’aléa (supposé pratiquement gaussien) de la 
méthode. 


On partage l'échantillon de référence en 6 éprouvettes que l’on soumet à 
l’analyse d’un laboratoire. Les valeurs trouvées en g/litre sont : 


1,35 1,26 1,48 1,32 1,50 1,44. 


Tester l'hypothèse nulle que la précision est inférieure ou égale à 0,1 g/litre au 
niveau 0,05. Donner la P-valeur du résultat. 
(aide : test de Ho : o? < aë) 


Exercice 9.19 On sait que dans la population générale du nord de l'Italie le 
pourcentage de prématurés (naissance avant le 8ème mois) est de 4 %. Dans une 
région du nord de l'Italie contaminée par une pollution chimique on à observé 
sur les dernières années 72 naissances prématurées sur 1 243 accouchements. 


Y-a-t-il lieu, selon la P-valeur constatée, de penser que la proportion de 
prématurés est plus élevée dans cette région que dans l’ensemble de la popula- 
tion du Nord du pays ? Donnez la fonction puissance du test de niveau 0,01. 
(aide : test de Ho : p < po) 


Exercice 9.20 Le fournisseur d’un lot de 100 000 puces affirme que le taux de 
puces défectueuses ne dépasse pas 4 %. Pour tester cette hypothèse 800 puces 
prises au hasard sont contrôlées et l’on en trouve 40 défectueuses. Effectuer un 
test de niveau 0,05. 

(aide : test de Ho : p < Po) 


Exercice 9.21 Dans une étude on a mesuré le taux de plomb dans le sang (en 
mg/litre) de 67 enfants tirés au hasard dans les classes primaires d’une ville, 
dont 32 filles et 35 garçons. Pour les filles on a trouvé une moyenne de 12,50 
avec une variance de 3,39. Pour les garçons on a trouvé, respectivement, 12,40 
et 3,94. Le taux moyen est-il significativement différent entre garçons et filles ? 
Quelle hypothèse supplémentaire doit-on faire pour pouvoir répondre à cette 
question ? 

(aide : test de Ho : 1 = Lu) 


Exercice 9.22 L’an dernier, on a observé sur un échantillon de 29 apparte- 
ments de 3 pièces situés en ville des dépenses de chauffage égales en moyenne 
à 325 euros, avec un écart-type égal à 26 euros. 

Cette année, pour un nouvel échantillon de 31 appartements de 3 pièces en 
ville on a trouvé des valeurs respectives de 338 euros et 28 euros. L'hypothèse 
à laquelle on s'intéresse est qu’il n’y à pas eu d’augmentation des dépenses, en 
moyenne entre les deux années. 
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a) En supposant que toutes les conditions nécessaires à la validité du test utilisé 
sont remplies, effectuer un test de niveau 0,05 pour l'hypothèse ci-dessus. 

b) Donner les conditions nécessaires pour que la procédure de test utilisée soit 
applicable. 

(aide : test de Ho : 1 > 2) 


Exercice 9.23 Pour tester l'efficacité d’un traitement destiné à augmenter 
le rythme cardiaque, on a mesuré sur 5 individus ce rythme avant et après 
administration du traitement. Est-il efficace ? 


Avant | 80 | 90 | 70.3 | 85 63 | 
Après | 84 | 95.5 | 73.5 | 86 | 62. 


On supposera que le rythme cardiaque se répartit de façon quasi gaussienne 
pour la population considérée (avant comme après traitement). 
(aide : test «apparié» Ho : 1 > Lo) 


Exercice 9.24 Une entreprise qui commercialise des abonnements pour un 
opérateur de téléphonie mobile, applique un nouveau régime horaire à ses em- 
ployés. Pour 16 vendeurs pris au hasard, elle comptabilise le nombre d’abon- 
nements vendus le mois précédant l’application du régime et le mois suivant : 


vendeur 1 2 3 4 5 6 7 8 
Mois précédent | 39 28 67 45 28 73 67 53 
Mois suivant 43 51 64 35 18 53 66 61 
vendeur 9 10 11 12 13 14 15 16 
Mois précédent | 69 41 52 60 50 46 53 47 
Mois suivant 69 43 53 47 34 39 49 56 


En se fondant sur cette information, la direction annonce que le nouveau 
régime provoque une baisse importante des ventes. Cette affirmation estelle 
justifiée ? Donner une valeur approchée de la P-valeur du test effectué. On 
admettra que la loi du nombre de ventes mensuelles est suffisamment proche 
d’une loi normale. 

(aide : test «apparié» H5 : 1 < lo) 


Exercice 9.25 Un nouveau vaccin contre le paludisme est expérimenté auprès 
de la population d’une ville d'Afrique. 


On prend deux échantillons A et B de 200 personnes chacun. On injecte le 
vaccin aux individus de l'échantillon À et un placebo à ceux de l’échantillon B. 
Au bout d’un an on constate que 40 personnes de l’échantillon À ont des accès 
de palustres et 80 de l’échantillon B. Que dire de l'efficacité du vaccin ? 

(aide : test de Ho : p1 > p2) 
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Exercice 9.26 Suite à des sondages, l'institut À donne 510 personnes favo- 
rables à telle mesure sur 980 personnes interrogées, l'institut B donne 505 
favorables sur 1030. 

La différence des estimations de la proportion de personnes favorables est- 
elle significative ? 
(aide : test de Ho : p1 = p2) 


Chapitre 10 


Tests pour variables 
catégorielles et tests 
non paramétriques 


Dans ce chapitre nous considérons tout d’abord la généralisation des tests 
des sections 9.7.5 et 9.7.6 concernant des variables de Bernoulli, à des variables 
catégorielles. Les tests sur des variables catégorielles sont voisins dans leur 
esprit des tests non paramétriques et certains d’entre eux sont effectivement de 
nature non paramétrique. C’est pourquoi nous regroupons ces deux types de 
tests dans un même chapitre. 


Une variable catégorielle est une extension d’une variable de Bernoulli au 
sens où il n’y à plus deux mais c > 2 résultats possibles. Il s’agit d’une variable 
aléatoire non pas à valeurs dans R comme les v.a. usuelles mais à valeurs dans 
un ensemble de catégories. Ce sera, par exemple, la réponse d’un individu à une 
question à c modalités dans une enquête par sondage. Une variable catégorielle 
peut être une variable purement qualitative (ou nominale) ou une variable 
ordinale si les catégories sont ordonnées. Elle peut aussi résulter d’une mise 
en catégories d’une variable quantitative (par exemple constitution de classes 
d’âge ou de revenus). 


Une variable catégorielle est parfaitement définie par les probabilités res- 
pectives p1,D2,--:,p. des c catégories. La somme des probabilités étant égale à 
1, il y a en vérité c — 1 paramètres libres. Dans le contexte d’un tirage aléatoire 
d’un individu dans une population finie, exposé en section 2.4, p1,P2,--- ,pe 
coïncident avec les fréquences relatives (ou proportions) des c catégories dans 
cette population. 


D'une façon générale nous nous intéresserons à l’observation de la variable 
catégorielle sur un n—échantillon aléatoire, par exemple les catégories observées 
sur n individus tirés au hasard dans une population. Seules importent (comme 
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on le justifiera dans la note 10.1) les variables aléatoires MN, N2,.., Ne cor- 
respondant aux fréquences respectives des c catégories après n observations 
répétées et indépendantes de la variable catégorielle. Leur loi conjointe est la 
loi multinomiale décrite en section 4.1.6 en tant qu’extension de la loi bi- 
nomiale de deux à c catégories. Cette loi sera donc le point de départ des tests 
concernant les variables catégorielles. 


10.1 Test sur les paramètres d’une loi 
multinomiale 


Dans les mêmes notations que ci-dessus, la fonction de probabilité conjointe 
des v.a. N;,,N2,-.-, N° est : 


P(M — ni, No = N2,::: , Ne = Ne) = mnolccn Pi De pe 
al 
si Dans = n et 0 sinon (voir section 4.1.6). Ces variables aléatoires ne sont 
pas indépendantes puisque leur somme doit être égale à n. 
On s'intéresse à l’hypothèse nulle : 
Ho : Pi = Por, P2 = Po2,*** ; Pe — Poc 


où les po; sont des valeurs de probabilités spécifiées telles que 3 Po; = 1, 
l’hypothèse alternative étant qu’il existe au moins une catégorie j telle que 
P; # Po; (en fait il y en aura au moins deux puisque le total doit rester égal à 
1). Nous présentons deux approches de test dont on verra qu’elles sont asymp- 
totiquement équivalentes. 


10.1.1 Test du rapport de vraisemblance généralisé 


Soit le RVG : 
n! 
———— (po1)"(po2)"? - -- (poc)"° 
nilnol-. nel 
À(ni,n2,. Ne) = n! 
2, , fe 
nilnol-- nel FL Pa 


où (P1,P2,--- ,Pe) est l’estimation du MV de (p1,p2,--- ,p.). Montrons que ?; 
est égal à n;/n, la proportion observée dans l'échantillon pour la catégorie 3. 
En remplaçant pe. par 1—p1—--:—p. 1 pour intégrer la contrainte Di p; = 1 
dans la recherche du maximum, la fonction de vraisemblance s’écrit : 


! 

n° n1,.n2 Nc—1 n . C 
Rs —— e.. É 1 — rie 11) “97 2 ‘SL NN =n 
ninolnll Po Pe_1 ( D Pc ) Yi J ? 
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d’où la log-vraisemblance : 


n! 
Le r)+na mp1 +-.-+ne_1lmpe-1 +neln(l — pi —:.:—pe_:) 
Ni No: Ne: 


si) in; = n. 


En annulant la dérivée par rapport à chacun des paramètres p1,p2,--- ,pe_1 
on obtient les c — 1 équations suivantes : 


ni ne 

=0 
Pi 1—pi—..—-pe_i 
n2 ne =0 
Pa 1—pi—-..—pe_1 
Ne Ne 2; 
Per Pi: —-pe_i 


€ . 
: Mi M2  Ne_1 Ne D nj 
soit = n 


P1 p2 Pc-1 Pc pe Dj | 


d’où (en admettant que la solution unique aux équations donne bien un maxi- 


mum), pour tout j, la solution ÿ; = nj/n. 0 


Le rapport de vraisemblance pour tester Ho est donc : 


(po1 )" (Po2)"? - +: (poc)"° 


nr) 


À(n1,72, rer Ne) — 


Il 
Q 

Le 
TS 
3 3 
FIES 

Ss. 
Nr 


En utilisant le théorème asymptotique 9.2 on à comme région de rejet de 
niveau (approximativement) à : 


—2 In À = 29 n; PR > ER 
= npoj 


Notons que la loi du khi-deux a c — 1 degrés de liberté, car il n’y a que c—1 
paramètres libres spécifiés par H6. Dans ce contexte de variables catégorielles la 
statistique —2 In À est appelée déviance. Certains logiciels l’appellent toutefois 
rapport de vraisemblance (alors que celui-ci est À). Par commodité nous nous 
autoriserons aussi ce glissement de langage. 
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Note 10.1 Chaque observation d’une variable catégorielle peut être décrite par un 
vecteur «indicateur» (X1, X2,---, Xe) tel que la j-ème composante prenne la valeur 
1 si le résultat est la 7-ème catégorie, les autres composantes prenant alors la valeur 
0. La densité conjointe des € composantes est : 


Flirt, DD Ds De) = DT PS7 PE 


où, pour tout 7, tj € {0,1} et > z; = 1. Pour n observations répétées on a une 
suite de n vecteurs : {(X 15, Xa5,--: , Xe), à — 1l,--- ,n}, avec densité conjointe : 


Tii,T2i Lei — prinn2 n 
[ri 4 2 "pe" =? Po ape 


si se n; —= n (0 sinon) où n; est le nombre d'observations tombant dans la 
catégorie j parmi les n observations. Donc (N1,N2,-:-,N:) est une statistique 
exhaustive. De plus on voit que lorsque l’on fait un rapport de vraisemblance pour 
la suite des n vecteurs, on obtient la même expression qu'avec la loi multinomiale, 
les termes avec factoriels de cette dernière s’éliminant. Ceci justifie le fait de passer 
directement par la loi multinomiale pour construire le test. 


10.1.2 Test du khi-deux de Pearson 


Ce test est historiquement le premier à avoir été proposé bien avant le 
développement formel de la théorie des tests par Jerzy Neyman et par Egon 
Pearson à partir de 1930. Il à été mis au point vers 1900 par Karl Pearson, le 
père d’Egon, afin de vérifier sur des données biologiques certaines hypothèses 
tenant aux facteurs d’hérédité. 


En utilisant des approximations gaussiennes Karl Pearson à montré que la 


statistique de test 
— MPo;) 
Q= D ne ; 


EL - 


admet, sous Ho, une loi asymptotique x?(c— 1). C’est pourquoi Q est couram- 
ment appelée statistique du khi-deux (ou statistique de Pearson). 


Remarquons que, sous l'hypothèse H6, (N; — npo;)/4/nPp0;(1 — po;) est la 
variable centrée-réduite de N,; dont la loi marginale est la loi binomiale B(n, po;) 
(voir section 4.1.6). Asymptotiquement cette v.a. suit une loi W(0:;1) et son 
carré une loi x?(1). On montre que la contrainte 3}°_, N; = n a pour effet 
d'éliminer les facteurs (1 — p°) pour donner une loi asymptotique du khi-deux 
à c — 1 degrés de liberté. Intuitivement on voit que la valeur prise par Q est 
d'autant plus petite que les fréquences observées sont proches des npo; appelées 
fréquences attendues (ou fréquences théoriques) sous H5. On ne rejette donc 
l'hypothèse que que pour de grandes valeurs de réalisation q de Q, à savoir 


1) 


lorsque q > X°1= pour un test de niveau (approximatif) @ 
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10.1.3 Équivalence asymptotique des deux tests 


Nous donnons une démonstration abrégée de cette équivalence, des dévelop- 
pements plus rigoureux se trouvant dans les ouvrages cités en référence (en fin 
de section 10.3). Pour ne pas alourdir les notations nous n’indiçons pas par n 
les suites de v.a. ou de réalisations dont on considère ici la convergence quand 
n — 00. 

Hans N 

Pour toute composante N,; du vecteur aléatoire (N1, N2,..., N°), sous Ho, 
tend presque sûrement vers po; quand n — œ par la loi des grands nombres 

U Nj—npo; P:s- Did #22 
et, par conséquent, ne = 0. Pour toute réalisation! (n1,n2,...,n.) de 
(M,N2,..,N.) on a donc : 
Nj — NPo; 
npo; 


— 0 quand n — æ , pour tout j. 


= In(1+h;). 


expression de la Hélas ion de la déviance 


a on sn écrire n; = npo;(1 +h;) 


Pour chaque terme n; 


Posant h; — 


(i.e. —21n à), A oEoone ce sobanihime au voisinage de 1 selon In(1 + x) = 
x — 22? + O(x*) pour obtenir : 


= npo;(1+h;)(h; 5 + O(h)) 


n 
ñ; In 
npo; 


— npo; (R; + Se + O(h°)) 


1(n; — npo; 2 
=; np + 3! mr 5) + npojO(hÿ) . 
j 


Le terme npo;jO(h) qui est négligeable devant les deux autres termes est 
d'ordre : 


3 
(npo;) En — npo;) | Nj — NP; | (1 — p0;)°/? 
] — . 


(npo;) npo;(1 — Po;) V7Po 
L'expression entre crochets étant une réalisation d’une variable aléatoire N(0 ; 1), 
le terme négligé est d’ordre 1//n. 

La réalisation de la déviance est donc : 


€ _. c c nj — NPo;) 1 
29 njim—? 2 (n; — np;) 1 +O0(——). 


j=1 


Comme Din; — npo;) = 0 on voit que la réalisation de la déviance est 
équivalente à la réalisation q de la statistique du khi-deux quand n — æ. Ceci 


lPlus formellement, se référant à la convergence presque sûre, on devrait dire «pour 
presque toute réalisation». 
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a pour conséquence que les statistiques du rapport de vraisemblance? 


et du khi-deux ont la même loi asymptotique sous H,. Elles conduisent 
à des régions de rejet identiques et, donc, à des tests équivalents. 


Note 10.2 Il est important de remarquer que le seul point crucial de la dé- 
monstration de l’équivalence asymptotique des deux statistiques est que 
(n; — npo;)/npo; tende vers 0 quand n — © ou, de même, que (n;/n)/po; 
tende vers 1. Ainsi on pourrait avoir en lieu et place de po; une estimation 
convergente de cette valeur. Dans les sections suivantes on aura à effectuer de 
telles estimations et on admettra alors que les deux statistiques conservent la 
même loi asymptotique. 


En pratique on préfère utiliser le test du khi-deux qui met en évidence les 
écarts entre les fréquences observées et les fréquences attendues. D'autant plus 
que la statistique du khi-deux converge plus vite que celle du RV et donne 
donc une meilleure approximation (voir Agresti, 2002). On considère générale- 
ment, comme conditions de validité de l’approximation asymptotique, que les 
fréquences attendues np; doivent rester supérieures à 5. Lorsque ces 
conditions ne sont pas remplies on s’arrange pour regrouper certaines catégories 
proches. 


Nous ne nous intéresserons pas à la puissance de ce test qui est un problème 
complexe vu la multiplicité de formes que peut revêtir l'hypothèse alternative. 
Ceci sera vrai a fortiori pour les tests introduits dans les sections suivantes. 


10.1.4 Cas particulier de la loi binomiale 


Appliquons la formule du khi-deux avec € = 2, po1 — Po, Poz = 1 — Po et 
no =n—n1. On a: 


(ni — npo)?  (n—n1 — n(1 — po))? 


q == 
npo n(1 — po) 
L (ni — npo) Fe (ni — npo) 
npo n(1 — po) 


(np) _ (@-—p) 
npo(l — npo)  Po(l — po) 
nm 


en posant ? — n1/n pour la fréquence relative de succès observée. 


Remarquons maintenant que si Z est une v.a. de loi W(0:;1) alors, avec les 
notations usuelles pour les quantiles de cette loi : 


P(—-2-a/2 <Z< Bras) _— P(Z7°? < (Z1-a2)°) =1-a. 


2Plus exactement la statistique de la déviance. 
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Comme Z? suit une loi x?(1) on a, pour les quantiles, l'égalité (21-42)? = 
(Se du test du khi-deux est identique 


2), Ainsi la région d'acceptation q < x?! 
à : . 
PT Po 


-a2 < 2 a/2 
et — Po) 


n 


qui est celle du test classique par approximation gaussienne pour une proportion 
proposé en section 9.7.5 pour le test bilatéral Ho : p = po vs. Hi : p À po. 


10.2 Test de comparaison de plusieurs lois 
multinomiales 


Ce test est une double généralisation du test de comparaison de deux lois 
de Bernoulli vu en section 9.7.6, considérant à la fois plusieurs catégories et 
plusieurs lois. 


Soit J lois multinomiales ayant les mêmes catégories, en nombre J, et soit 
pi; la probabilité d’être dans la catégorie à pour la loi j. L'hypothèse nulle à 
tester est que les probabilités associées aux 7 catégories sont identiques pour 
toutes les J lois, soit : 


Ho Pi = Pia = =py , i=1,...,1, 


l'hypothèse alternative étant que pour au moins une catégorie (en fait il y 
en aura au moins deux puisque le total doit rester égal à 1) ces probabilités 
diffèrent pour au moins deux lois. Si l’on se réfère à la comparaison de popu- 
lations ce test est un test d’homogénéité des populations au sens où H5 
signifie que la variable catégorielle étudiée se distribue de façon identique dans 
ces populations (voir les exercices appliqués pour illustration). 


Dans ce problème on est en présence de (7 — 1)J paramètres inconnus dont 
seulement (7 —1)(J — 1) sont spécifiés par Ho. En effet, pour la catégorie à par 
exemple, on peut écrire, en prenant la J-ème loi pour référence, p;1 = pig +61, 
pia = Pig +02,..., Pi,g-1 = Pig + 0.71. Pour cette catégorie, HG équivaut donc 
à 01 = 02 =... = 07_1 = 0. Comme il suffit que ce type d'égalité soit vérifié 
pour 1 — 1 catégories, l'égalité étant nécessairement vérifiée pour la catégorie 
restante, on a bien (7 — 1)(J — 1) paramètres spécifiés par Ho. 


On considère J échantillons mutuellement indépendants de tailles n; où 
j = 1,2,...,4J, issus respectivement des J lois. Soit N;; la fréquence de la 
catégorie 4 pour la loi multinomiale j, N;. le total des fréquences pour la 
catégorie à sur l’ensemble des lois et n = Te n; l'effectif englobant tous les 
J échantillons. On pourrait développer aisément le test du rapport de vraisem- 
blance. Par application du théorème 9.2, la statistique du RVG suit asymptoti- 
quement, sous Ho, une loi du khi-deux à (7—1)(J—1) degrés de liberté. Comme 
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précédemment nous préférons utiliser la statistique Q de Pearson. Toutefois, 
ici, les p;; ne sont pas totalement spécifiés sous H, et il faut les estimer pour 
calculer les fréquences attendues. En recourant aux estimateurs du maximum 
de vraisemblance qui sont convergents, les deux tests restent asymptotique- 
ment équivalents (voir note 10.2). La loi asymptotique de Q sera donc la loi du 
khi-deux à (1 — 1)(J — 1) degrés de liberté. 


Sous HA, notons p; la probabilité de la catégorie 4, commune à toutes les lois 
(soit p; = pin = Pie = --- = piz) et déterminons les estimateurs du MV des p;. 
Pour un échantillon, disons l’échantillon 7, la vraisemblance est, comme vu au 
début de la section 10.1.1, 


n;! ns 
J Ni, N2 nr-1 ni : T 

ee era DL it ee DA-pi—- pri) SD ini =n;. 
Ni No: Nrj: 


Pour l’ensemble des J échantillons la vraisemblance globale est le produit des 
vraisemblances de chaque échantillon puisque ceux-ci sont indépendants, soit : 


J 
| 
J ni5,,n2 nr nr; 
El TNT Pi EPS der du CS nr une ee 
7, NijN2j: NI: 
9=1 
J n:! 
j° n1.,n2 nI-1, nr. 
ü Il Inosl DT Da DE Uhr pr) es 
ei Nij:N25: "NI: 


où n,;, est le total observé pour la catégorie à sur toutes les lois. 


On est ramené au même problème de maximisation qu’en section 10.1.1, 
les n;. se substituant aux n;. Le maximum est donc atteint pour D; = n;./n. 
L’estimateur du maximum de vraisemblance de p; est donc l’estimateur naturel 
N;./n égal à la fréquence relative de la catégorie à obtenue en fusionnant les J 
échantillons. Pour la catégorie à de la loi j la fréquence attendue sous H5 est 
donc estimée par n;N;./n. La statistique de test est alors : 


PR - y 
= ne — —— 


j=1 i=1 


L 


n 
dont la loi peut être approchée par la loi x?((1 — 1)(J — 1)). 
Pour la mise en oeuvre de ce test par la statistique du khi-deux considé- 


rons les notations pour les fréquences observées comme indiqué dans le tableau 
suivant : 
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Catégorie | loil -*-: loij :-: loi J 
1 Mat ct Miÿ ‘May | ni. 
o) Mit tt Mi tt Mi ni. 
I Pt cc Mij ce  NIJ | NI. 
m1 ….. LL) ….. N.J n 


Dans ce tableau les n; sont notés n; pour donner un rôle symétrique aux 
deux marges. La fréquence attendue pour la case (4, j) est obtenue en effectuant 
le produit des marges n;. et n.; divisé par n. On rejettera donc Ho au niveau 
a si : 


j 2 ((1—1)(J—1 
De EL 


Pour un tableau 2 x 2 la condition de validité reste que les fréquences at- 
tendues soient supérieures à 5. Pour un tableau de dimensions supérieures de 
nombreuses simulations ont montré que l’approximation était étonnamment 
bonne même avec des effectifs plus faibles. On montre aisément (voir exercices) 
que, dans le cas 7 = 2 et J = 2, on retombe sur le test par approximations 
gaussiennes de la section 9.7.6. 


10.3 Test d'indépendance de deux variables 
catégorielles 


10.3.1 Test du RVG et test du khi-deux 


On considère un couple de variables catégorielles, l’une à 7 catégories, 
l’autre à J catégories, observables sur toute unité statistique sélectionnée (ou, 
pour un sondage, sur chaque individu d’une population). Le croisement de ces 
deux variables donne lieu à une variable catégorielle à 7 x J catégories avec 
TX J—1 paramètres libres. À la catégorie obtenue par croisement des catégories 
i et j respectives de chaque variable est associée la probabilité p;;. On a donc 
 — ne pi = 1. On s'intéresse à l'hypothèse d'indépendance de ces deux 
variables. 


Comme pour les variables aléatoires (voir définition 3.4) on définit que deux 
variables catégorielles sont indépendantes par le fait que, pour tout événement 
sur l’une et tout événement sur l’autre, la probabilité de leur intersection (ou 
conjonction) est égale au produit des probabilités de chaque événement. Un évé- 
nement étant un sous-ensemble de catégories et les catégories étant en nombre 
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fini on peut voir aisément (voir exercices) qu’il faut et qu’il suffit qu’il y ait 
indépendance entre tous les couples élémentaires (4, j) de catégories pour assu- 
rer l’indépendance complète. Ainsi l’hypothèse nulle à tester est 


Ho:pij =pip.; pouri=l,...,1 et j—1,..:,J, 


où p;, est la probabilité marginale pour la catégorie à de la première variable 
et p.; pour la catégorie j de la deuxième variable. L'hypothèse alternative est 
la négation de Ho à savoir qu'il y ait au moins un couple (i,j) pour lequel 
Dij À PiD.; : 


Pour un échantillon aléatoire de taille n on observe les fréquences au croise- 
ment des deux variables et l’on note N,;; la fréquence au croisement (4,3). Une 
réalisation de l’échantillon peut être représentée par le tableau de contingence 
suivant : 


Var.2 1 ; J 
Var.l J 
1 ni n1j nig | 1 
À Nil Ni NiJ Ni 
T Mi ct Mj ct  NIJ | NI. 
n1 …….. mn; …….. N.J nm 


Prenons l’approche par le test du rapport de vraisemblance. Considérant 
la variable catégorielle à 1 x J catégories obtenue par le croisement on a pour 
fonction de vraisemblance du tableau des n;; (voir section 10.1) : 


Nij 


n! ; 
Ts [[r: pour ) Nij =n et O0 sinon, 
(5 DST S 
ii à, à, 


où Il, dénote, en abrégé, les produits de 7 x J termes avec à = 1,---,1 et 
j=1,:::,J (et de même Y;, pour les sommes). Comme il a été démontré en 
section 10.1.1 les estimations du maximum de vraisemblance sont p;; = nij/n. 


Sous H, la vraisemblance est : 
! ! 
SA | [(p:.p.5)"5 pe | LP: | [?." 
ol | 
[nil 55 [ri;! 55 ne 
ï, J i,5 L 4 


n _ ne 
= Te 
His! : : 
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La maximisation s'opère séparément sur chaque variable et revient pour cha- 
cune au problème d’une multinomiale d’où p;. = n;./n et p; =n;/n. Le RVG 


est donc : 
CI ns 


DRE 

n 3 

n']|] Nij 
à,j 


À 


Asymptotiquement la statistique —2 In À (obtenue en remplaçant les réalisations 
ni; par les v.a. N;; dans l'expression ci-dessus) suit une loi du khi-deux avec un 
nombre de degrés de liberté égal au nombre de paramètres spécifiés. On pour- 
rait trouver ce nombre en utilisant une reparamétrisation comme nous l’avons 
fait en section 10.2, mais il est plus simple de constater que sous A, il reste 
TI —1 paramètres inconnus pour la première variable et J — 1 pour la deuxième. 
Comme il y a globalement 1J — 1 paramètres inconnus cela signifie que Ho 
spécifie implicitement 1J — 1—(7—1)—(J—1) = (1 —1)(J — 1) paramètres. 
Donc la statistique —2 In À suit, sous Ho, une loi x?((1 — 1)(J — 1)) et l’on re- 
2((1—1)(J—1)) 


1-a 


jettera H, au niveau a si la réalisation —21n À est supérieure à 
J 0 P X 


De préférence, on utilisera la statistique Q de Pearson obtenue en estimant 
les fréquences attendues sous HQ par le maximum de vraisemblance, soit : 


NN; NN; 
rs a IN. 


NDi.D.j — 
nm nm nm 


? 


d’où : 


Cette statistique est asymptotiquement de même loi que celle issue du RVG 


(voir note 10.2) sous H. Cette hypothèse sera donc rejetée au niveau a si la 
2((—1)(J—1)) 


1-a ê 


réalisation q de Q est telle que q > x 


Ceci conduit à un test dont la mise en oeuvre est en tous points 
identique à celui proposé pour la comparaison de lois multinomiales. 
Il convient toutefois d’insister sur la différence entre les deux situations. Dans 
le test d'indépendance seule est fixée la taille globale de l’échantillon n, les 
fréquences marginales étant aléatoires. Dans la situation précédente une des 
marges (celle du bas du tableau) est fixée dans le plan d’échantillonnage par 
les effectifs choisis pour les différentes populations. 


Notons aussi que le tableau des fréquences attendues (les nin;/n) est un 
tableau dont toutes les lignes (respectivement toutes les colonnes) sont pro- 
portionnelles, ce qui correspond bien à l’idée d'indépendance intuitive sur un 
tableau empirique. 
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10.3.2 Test exact de Fisher (tableau 2 x 2) 


On considère le cas 1 = 2 et J — 2 avec le tableau des réalisations suivant : 


Var.2 
1 2 
Var.l 
1 Ni Mio | Ni 
2 No 122 | No. 
nm nm 2 nm 


On peut montrer que la loi conditionnelle conjointe de (N:1, Ni2,No1 No) 
sachant les fréquences marginales N,N2,N:1,N2 est indépendante des p;; 
sous H5. En d’autres termes les fréquences marginales sont des statistiques 
exhaustives pour les paramètres (p1.,p2.,PD1,p.2) en cas d'indépendance (voir 
définition 6.8). Plus précisément, en raison des contraintes, (N1,N:) est sta- 
tistique exhaustive si l’on prend comme seuls paramètres inconnus (p1.,p1). 
La démonstration est simple car, les marges étant fixées à n1,,n2,,n1,n, il 
suffit de considérer la probabilité P(Ni11 = nil, No, n1,n2) puisque les 
v.aà. Ni9, No, No sont liées à Ni respectivement par n1. — Nu,ni = Ni et 


N 


no, — 1, + Ni1. On a alors une démonstration analogue à celle exposée en 
section 9.7.6 (voir exercices). On obtient : 
ni n12 


Cu) 


qui montre que, conditionnellement aux marges, N;, suit une loi hypergéomé- 
trique H(n,n1.n1). 


P(Nu = nuire, nains) = 


Le test proposé par Fisher consiste à prendre une région critique de niveau 
a choisi, sur cette loi conditionnelle. On peut établir (voir note 10.3 ci- 
dessous) que ceci est légitime, donnant bien un test de niveau « dans l’absolu. 
Cela conduit à une règle de décision totalement identique à celle utilisée en 
section 9.7.6 pour tester de façon exacte l'égalité de deux proportions (ou, plus 
généralement, des paramètres de deux lois de Bernoulli). Pour cette hypothèse- 
là il suffisait toutefois de conditionner sur une seule marge, l’autre étant fixée 
par le plan d’échantillonnage. 


On définit donc une région de rejet sur la base, par exemple, de la valeur 
n11 observée, selon : 


ni £ [Co ; Cas] 


OÙ Ca €t Ca» Sont les quantiles d'ordres a et a2 tels que a1 + a2 = à, issus 
de la loi H(n, n1.n1). Ce test est UPP-sans biais. 
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La plupart des logiciels se chargent d’effectuer les calculs fastidieux et four- 
nissent la P-valeur relative au tableau observé. 


On pourrait étendre ce test exact à un tableau de plus grande dimension. 
Outre que les calculs se complexifient rapidement ceci n’est pas utile du fait 
que l’approximation du test du khi-deux devient très vite satisfaisante avec des 
conditions de validité identiques à celles de la section précédente, à savoir que 
les fréquences attendues restent pour la plupart supérieures ou égales à 5. 


Note 10.3 Montrons que, d’une façon générale, un test de niveau & condition- 
nellement à une statistique exhaustive sous A5 est un test de niveau & dans l’ab- 
solu. Soit dans la famille {f(x;0), 0 € @} l'hypothèse nulle Ho : 0 € Oo et T 
une statistique exhaustive sous H5. Soit, pour un échantillon (X1, X2,---, X,), un 
test défini par une région de rejet À de R” de niveau @ pour la loi conditionnelle 
fai, to,-.- ,ænÎT = t) qui, par définition pour T, ne dépend pas de 0 sous H. 
Alors, notant en raccourci (21,%2,-::,4) par X et dx1dx2---dx, par dx, on a 
pour tout 0 € @b, avec des notations évidentes (T' étant de dimension k) : 


À) = fl fx 6)dx 


= [IL FGIT = tfr(t: 01 dx 


= | frttie) )| rer = ax] a 


= a fr(t0)dt = à, 
R# 


ce qui prouve que À définit un test de niveau a de façon non conditionnelle. Dans le 
cas discret ceci vaut si l’on randomise le test pour atteindre exactement le niveau «@. 
Si l’on utilise un test conservateur conditionnellement il restera toutefois conservateur 
non conditionnellement. 


Exemple 10.1 Une pré-enquête a été effectuée auprès de 50 personnes (sup- 
posées sélectionnées par sondage aléatoire simple dans la population cible) pour 
évaluer le taux d'acceptation pour participer à une étude de suivi médical. On 
s'intéresse au croisement des variables catégorielles sexe et réponse oui/non 
pour participer. On a obtenu les résultats suivants : 


_ particip. SRE 
femme 9 20 | 29 
homme 5) 16 | 21 
14 36 | 50 
Choisissant de fonder le test sur la fréquence du croisement (femme, oui) on 
doit lire les probabilités sur une loi H(50, 29, 14). C'est-à-dire qu’on examine la 
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v.a. X «nombre de femmes parmi les 14 oui» sachant qu’il y a globalement 29 
femmes parmi les 50 personnes, sous l'hypothèse d'indépendance entre sexe et 
participation ou non. On doit rejeter cette hypothèse si le nombre de femmes 
répondant oui est soit trop élevé, soit trop faible, par rapport à la fréquence 
attendue qui est égale à US$ = 8,12. Pour cette loi hypergéométrique les sauts 
de probabilité sont assez élévés. On à, par exemple, une région de rejet de niveau 
0,024 avec {0, 1,2,3,4, 12,13, 14} pour les valeurs de X et de niveau 0,11 avec 
{0,1,2,3,4,5,11,12,13, 14}. On a donc avantage à considérer la P-valeur. Avec 
la fonction « loi hypergéométrique » dans un tableur on trouve que P(X > 9) — 
0,41. La P-valeur est donc égale à 0,82 ce qui rend l’hypothèse d’indépendance 
tout à fait acceptable. 

Notons qu’on aurait pu aussi bien prendre la loi H(50, 14, 29), considérant 
le nombre de oui parmi les 29 femmes sachant qu’il y a globalement 14 oui 
parmi les 50 personnes, ce qui est rigoureusement équivalent. 


Voyons ce que donne l’approche approximative par la statistique de Pearson. 
Le tableau des fréquences attendues est 


8.12 20,88 
5.88 15,12 


d’où : : : : ; 
2 2 1 
Re) Gi é 20,88 5,88 ji 15,12 


) = 0,315 


qui correspond au quantile d'ordre 0,43 sur une loi x?(1). La P-valeur est donc 
ici donnée à 0,57 ce qui est sensiblement différent de la valeur exacte de 0,82 
mais conduit à la même décision d’acceptation de l’indépendance. 


Sur cet exemple, de la façon dont les choses sont présentées, on a le sentiment 
que l’on compare deux proportions : celle des femmes et celle des hommes 
acceptant de participer à l’étude. Néanmoins il ne s’agit pas d’un test d'égalité 
entre ces deux proportions car un tel test supposerait que l’on ait fixé à priori 
la taille des échantillons de chaque sexe (par un plan de sondage stratifié selon 
le sexe), alors que dans notre exemple les effectifs des hommes et des femmes 
résultent du tirage au hasard. La différence mérite d’être précisée même si elle 
n’a pas d'incidence sur la règle de décision. Elle n’est toutefois pas neutre pour 
le calcul de la puissance. = 


Pour approfondir la théorie et la pratique des données catégorielles on 
pourra consulter les ouvrages suivants : Agresti (2002), Chap (1998), Droes- 
beke, Lejeune et Saporta (2004). 


10.4 Test d’ajustement à un modèle de loi 


Le problème envisagé ici est de décider, au vu d’un échantillon X1,X2,..., 
X», si la loi mère de cet échantillon est du type spécifié par une hypothèse 
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H,. Un test aura pour but d'examiner si la distribution des valeurs de l’échan- 
tillon s’ajuste suffisamment bien à une distribution théorique donnée. On parle 
également de test d’adéquation (en anglais : goodness-of-fit test). À défaut 
de pouvoir rejeter HQ on acceptera le modèle théorique proposé. Les dévelop- 
pements précédents relatifs à des comparaisons de fréquences observées et de 
fréquences attendues ou «théoriques» vont nous fournir un test de portée très 
générale. Outre ce test fondé sur une statistique du khi-deux il existe bien 
d’autres tests d'ajustement d’inspirations diverses et nous étudierons en par- 
ticulier le test de Kolmogorov-Smirnov de portée également générale et, par 
là-même, très répandu. 


Nous distinguons deux situations pour l’hypothèse nulle. En premier nous 
étudions le cas plus simple où la loi est parfaitement spécifiée par Ho, puis 
nous passerons au cas où H, spécifie une famille paramétrique particulière sans 
préciser la valeur du paramètre qui reste inconnu. 


10.4.1 Ajustement à une loi parfaitement spécifiée 


Nous nous plaçons dans une optique non paramétrique au sens où les 
tests considérés devront s’appliquer quelle que soit la nature du modèle de loi 
mère envisagé. 


La fonction de répartition étant l’objet mathématique le plus approprié pour 
spécifier une loi, qu’elle soit discrète ou continue, nous conviendrons d’écrire 
l’hypothèse nulle sous la forme H6 : F = F5 où F5 caractérise donc le modèle 
de loi spécifié, l'alternative étant H; : F Æ F5. Ce genre de situation n’est 
pas rare, par exemple lorsqu'une théorie a été élaborée pour un phénomène 
quantifiable et qu'il s’agit de la mettre à l'épreuve des faits. 


Test du khi-deux 


Son principe repose sur la transformation de la variable aléatoire en une 
variable catégorielle pour se ramener au test sur une loi multinomiale comme 
en section 10.1. Pour cela on découpe R (ou sa partie utile) en intervalles 
pour obtenir des classes comme on le ferait pour un histogramme. A l'instar 
de ce qui à été fait en section 8.5.2 ce découpage se définit comme une suite 
double de valeurs croissantes {:-: , &_;,-::,&@_1,ao,@1,-::,a;,:-:} et l’on note 
nx la fréquence des observations situées dans l’intervalle ]ax_1,ax] pour un 
échantillon de taille n. La fréquence attendue sous Ho est npz où p4 est la 
probabilité pour la loi F, associée à l’intervalle ]az_1, ax], 1.e. 


Pr = Fo(ar) — Fo(ar-1). 


Pour ce découpage il faut toutefois veiller à remplir les conditions de va- 
lidité de l’approximation asymptotique, à savoir faire en sorte que les npg 
restent supérieurs ou égaux à 5. Cela amènera à reconsidérer éventuellement 
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le découpage initial et à regrouper des classes contiguës à faible probabilité. 
Pour une extrémité infinie on constituera un dernier intervalle ouvert sur l’in- 
fini de probabilité supérieure à 5/n. Notons que dans le cas d’une loi discrète 
concentrée sur un faible nombre de valeurs, chaque valeur (sauf peut-être sur 
les extrémités) peut constituer naturellement une classe en soi. 


Par ailleurs le choix du nombre de classes, voire même des frontières de ces 
classes, influe sur la puissance. Mais il est difficile d’orienter ce choix et l’on 
recommande, pour la pratique, de rester proche de classes à probabilités égales. 


Remarquons que le passage d’une variable aléatoire (au sens strict, c’est- 
à-dire quantitative) à une variable catégorielle induit une perte d’information. 
En effet dans une variable catégorielle il n’y a pas d’ordre des catégories et la 
statistique du khi-deux est indifférente à une permutation de celles-ci. Aïnsi 
l’échelle numérique de la variable aléatoire est ignorée ce qui laisse supposer 
une perte de puissance. 


Test de Kolmogorov-Smirnov 


Ce test tient compte de l’échelle des observations mais ne s'applique en 
principe qu'aux lois continues. Il est fondé sur l’écart constaté entre la fonc- 
tion de répartition empirique F, et F5. Nous avons vu en section 8.5.3 di- 
verses propriétés de la fonction de répartition empirique comme estimateur de 
la fonction de répartition de la loi mère : elle est l’estimateur fonctionnel du 
maximum de vraisemblance et est convergente presque sûrement uniformément 
(voir théorème 8.1). De plus, F,(x) est sans biais en tout x fixé. On s’attend 
donc, si H, est vraie, à ce qu’elle reste proche de F. En fait le théorème 8.2 
dû à Kolmogorov et à Smirnov fournit la statistique de test 


Dh = sup|F,(x) — Fo(x)|. 
zER 
Son intérêt est que, sous Ho, sa loi ne dépend pas de la nature de Fi ce qui 
donne lieu à des tables uniques quel que soit le type de modèle à tester. 


Rappelons, suite au théorème 8.2, que pour n > 40 et x > 0,8 on peut 
utiliser , 
P(ynD, <zx)=1-2e*#, 


ce qui conduit, par exemple, à P(D, < La) 0,95. Comme on rejette na- 


turellement H6 si D, est trop grand, on à comme région de rejet au niveau 
0,05: du > Na où d, est la réalisation observée de D,. 


D'un point de vue pratique il faut tenir compte du fait que F, est constante 
par morceaux. S'il est clair qu’en raison de la croissance de F9 l'écart absolu 
maximal doit se situer en un point de discontinuité de F,, (donc en une valeur 
observée x;) il y a toutefois lieu de comparer, pour tout à = 1,...,n, la valeur 
de Fox) à la fois à F,(x:) et à F, (x; ) = Fn(x:_1). Une illustration est donnée 
en figure 10.1. 
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Figure 10.1 - Illustration du test de Kolmogorov-Smirnov. 


On peut appliquer le test à des observations regroupées en classes. Dans 
ce cas il ne faut comparer que les valeurs aux frontières des classes : si az est 
une valeur frontière on comparera uniquement F,(ax) et Fo(ax). En effet les 
valeurs ne sont comptabilisées que sur ces frontières et on ignore l’allure de 
Fy à l’intérieur des classes. Il se trouve qu’ainsi le test est conservateur (ï.e. le 
niveau réel reste inférieur au niveau nominal de la table). 


De nombreuses études ont été effectuées pour comparer les puissances du 
test de Kolmogorov-Smirnov et du test du khi-deux. Bien qu’on ne puisse tirer 
de conclusions générales il est vrai que le plus souvent le test du khi-deux est 
moins puissant. Ceci s'explique notamment par le fait que, contrairement au 
test de Kolmogorov-Smirnov, il ne tient pas compte de l’échelle des valeurs. Il 
est par ailleurs intéressant de noter que si les deux tests sont convergents, ils ne 
sont pas sans biais vis-à-vis de toutes les fonctions de répartitions autres que 
F5 tant leur multiplicité est grande. 


10.4.2 Ajustement dans une famille paramétrique donnée 


On suppose maintenant, comme c’est le plus souvent le cas en pratique, que 
H, spécifie une famille de loi paramétrique sans précision sur le paramètre de 
la loi qui reste inconnu, ce que nous pouvons écrire : 


H:FE{f(x;0),0€0} 
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où seul 0 est inconnu. Par exemple on souhaite tester que la loi mère est gaus- 
sienne (ou, plus exactement, que le modèle gaussien est acceptable au vu des 
observations dont on dispose). Pour pouvoir élaborer une statistique mesurant 
d’une certaine façon, que ce soit par la statistique du khi-deux ou par celle 
de Kolmogorov-Smirnov, l'écart entre ce que l’on a observé et une référence 
théorique sous A5, il est nécessaire de passer par une estimation du paramètre 
inconnu 6. 


Test du khi-deux 


Pour la statistique du khi-deux le théorème ci-après dont la démonstration a 
été effectuée par Cramer (1946) permet de prendre en compte cette estimation 
de 0. Donnons tout d’abord le cadre général d’application du théorème. 


On considère une loi multinomiale à c catégories dont les probabilités dé- 
pendent d’un paramètre inconnu 0 € © de dimension r < € — 1 et sont 
notées p;(0), j = 1,---,c. Pour un n-échantillon aléatoire et les fréquences 
observées n1,n2,...,n., les estimations du MV de ces probabilités se déduisent, 
en tant que fonctions de 6, de l’estimation du maximum de vraisemblance 0 de 0 
(voir note 6.4). Celui-ci est obtenu en maximisant la fonction de vraisemblance 


n! 


L(8) = [p1(8)1"*[p2(8)1"2 ++ [pe (8)]"< 


milnol---nel 
avec la contrainte > 4 p;(8) = 1. On en déduit alors les estimations du maxi- 
mum de vraisemblance p1 (0), pa (6), -.. .pe(O). Dans l’énoncé du théorème nous 


utilisons, pour alléger, ces mêmes notations pour les estimateurs, les n; devant 
être remplacés par les N;. 


Théorème 10.1 Soit une loi multinomiale à c catégories de probabilités 
p1(0),p2(0),--- ,pe(0), où 0 est un paramètre inconnu de dimension r < c—1 et 
soit Ô l'estimateur du mazimum de vraisemblance de 0 pour les v.a. Ni, No, 
N.. Alors (sous certaines conditions de régularité) on a : 


? 


Q — se =) As re X(c—r-1). 


np; ( j 


En fait, nous avons déjà rencontré une telle situation dans le test d’indépen- 
dance en section 10.3. En effet sous l’hypothèse d'indépendance A, les p;; de la 
variable catégorielle croisée à 7 x J catégories s’exprimaient selon pi; = pp; 
et étaient donc des fonctions de (7 — 1) + (J — 1) paramètres correspondant 
aux probabilités marginales pi, i =1,-.-,1—1etp;,j=1,-..,J—1 (pret 
p.J se déduisant des précédents). On retrouve ici la règle des degrés de libertés 
pour Q, à savoir 1J — (1 — 1) — (J —1) —1 = (1 —1)(J — 1) établie alors en 
se rapportant à l’équivalence avec la statistique du RVG. On pourrait penser 
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que ce théorème est superflu, mais il mérite d’être présenté du fait qu’il découle 
historiquement d’une approche directe du comportement de la statistique du 
khi-deux et ceci, c’est à noter, sans faire référence à un test d’hypothèse. 


Si l’on se replace dans une situation de test on peut au premier abord 
s'étonner que le fait de devoir estimer des paramètres diminue les degrés de 
libertés. En effet un quantile d’ordre donné diminuant avec les degrés de li- 
berté la valeur critique en est abaissée par rapport à une même situation où @ 
serait connu. La raison tient au fait que la statistique Q sous-évalue les écarts 
aux vraies fréquences attendues en leur substituant des fréquences calculées 
sur l’échantillon lui-même et ceci d'autant plus que le nombre de paramètres 
à estimer est grand (à la limite, si 9 était de dimension c — 1 on serait simple- 
ment en présence d’une reparamétrisation du vecteur (p1,p2,:-: ,pe-1) et l’on 
prendrait p; = N;/n réduisant ainsi l'expression de Q à 0). 


L'application du théorème à l’ajustement dans une famille de lois est immé- 
diate. On procède comme en section 10.4.1 en opérant un découpage en classes, 
mais ici les probabilités px associées aux intervalles ]ax_1,ax] dépendent du 
paramètre 0. Il s’agit alors d'exprimer chaque p4 comme une fonction de 8 et 
d’en déduire l’estimateur du MV comme indiqué ci-dessus. Remarquons bien 
que cet estimateur n’est pas, hélas, celui que l’on obtient directement de la 
façon classique sur la base des observations X1, X2,---, X,. Illustrons cela par 
un exemple. 


Exemple 10.2 Soit à tester l'hypothèse que les observations proviennent d’une 
loi de Poisson P(À). Les observations au-delà de 3 étant rares, supposons que 
l’on effectue un découpage en 4 classes : {0}, {1}, {2} et {3 et plus}. Les pro- 
babilités associées à ces classes sont, respectivement : 


12 X2 
“NÉS Se et1—(e À+e Àx + ee 
Soit n;, 1 — 1,---,4, les fréquences observées dans les 4 classes. L’estimation À 


du MV approprié est obtenue en maximisant la fonction de vraisemblance de 
À suivante : 


se 


nl! n3 mu l na 
Ps (e-+e À Le LD 


LD) = ——— 

Q) nilnol--ne! 
Cette fonction de À n’est pas simple et il faut recourir à un algorithme d’op- 
timisation numérique. Il est clair que la solution est différente de celle de l’es- 
timateur du MV classique fondé sur les observations brutes æ1,%2,--- ,æ, et 
égal à la moyenne x des observations. Prenons les 100 observations suivantes : 


valeurs 0112131415 
fréquences | 38 | 400 112|7|121|1 


Le maximum de L(À) obtenu par un logiciel mathématique est 9,68 alors que 
la moyenne des observations est 9,8. 
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Notons que si n4 est petit ces valeurs sont proches car les fonctions à maxi- 
miser sont similaires. En effet pour L(A) il faut maximiser 


2 
e7*(mitnatne) \natns |] — (eÀ EEE AT 


alors que la fonction de vraisemblance classique est proportionnelle à : 


n 
II e \XÈ ii Li — er À(ritnotnstnitnss )An2+2n3+3n4+An5 + 


i=1 


où n4,n5, etc. sont les fréquences observées des valeurs 3,4, etc. = 


Cet exemple simple illustre le fait que l’estimation appropriée du maximum 
de vraisemblance est généralement difficile. Pour tester que la loi mère est 
gaussienne le problème est encore plus complexe. La probabilité p4 associée à 
l'intervalle Jax_1, ax] est égale à D(UA) — BEL), où P est la fonction de 
répartition de la loi de Gauss centrée-réduite, ce qui complique fortement la 
fonction de vraisemblance L(y, o?). En pratique on utilise l’estimation classique 
du paramètre qui est d’autant plus proche de l'estimation appropriée que le 
découpage en classes est fin (mais avec les limitations qui demeurent, à savoir 
que les fréquences attendues ne descendent pas en dessous de 5). Chernoff et 
Lehmann (1954) ont montré que, dans ce cas, la statistique Q ne suit pas une 
loi du khi-deux mais une loi encadrée par les lois y2(c — r — 1) et x?(c — 1). 
On se rapproche donc du cas où les fréquences attendues sont parfaitement 
connues du fait que l’estimateur usuel du MV est plus efficace. En gardant 
c—r — 1 degrés de liberté, comme le font les praticiens et la plupart des 
logiciels, on effectue un test anti-conservateur (i.e. de niveau réel supérieur au 
niveau nominal) puisque le quantile est inférieur à ce qu’il devrait être. Une 
procédure assurément conservatrice, mais souvent trop, consisterait à prendre 
le quantile sur la loi x?(c — 1). 


Si le nombre de classes c est assez élevé, la différence entre les quantiles sera 
peu sensible, sachant que presque toutes les familles paramétriques courantes 
ont un paramètre à une ou deux dimensions (r < 2). 


Test de Kolmogorov-Smirnov 


En pratique on adapte le test vu en section 10.4.1 en calculant la statis- 

tique : : : 
Da = sup|Fa(x) — F(x: 6)] 
zER 

où F(x; 0) est la fonction de répartition pour la famille paramétrique considérée 
et Ÿ est l'estimateur usuel du maximum de vraisemblance. Mais alors la loi de 
D, sous Ho n’est plus indépendante de la vraie loi et il faut étudier chaque 
cas de famille séparément. Fort heureusement le fait d’utiliser la valeur critique 
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propre à la statistique D, de la section 10.4.1 conduit à un test conservateur. 
Ceci découle de raisons semblables à celles invoquées pour la statistique du khi- 
deux, à savoir que D, tend à sous-estimer l’écart-réel et devrait être rejetée à 
des valeurs critiques inférieures. 


Remarques diverses 


1. Il existe des tests spécifiques à chaque famille qui, de ce fait, sont en principe 
plus puissants que les tests généraux précédents. Citons en particulier le test de 
normalité de Shapiro- Wilk (1965) fondé sur la corrélation entre les statistiques 
d'ordre et leurs espérances mathématiques sous hypothèse gaussienne. 


2. Souvent on n’a pas d'idée préconçue de modèle et l’on recherche, parmi 
les modèles courants, celui qui est le plus proche des observations. L'avantage 
d’une procédure générale telle que celles présentées ci-dessus est qu’elle fournit 
le même critère pour comparer plusieurs modèles, les statistiques D, ou Q 
tenant lieu de distance à minimiser. Paradoxalement, on ne souhaite pas avoir 
un test trop puissant, car on se contente de s’assurer que le modèle le plus 
proche est accepté par le test d’adéquation. 


3. Il existe aussi des méthodes graphiques telle que la droite de Henri pour l’hy- 
pothèse gaussienne et sa version générale non-paramétrique du QQ-plot qui est 
le graphe de la variation des quantiles empiriques en fonction des quantiles 
théoriques sous H5. Ces méthodes ont l’avantage de mettre en évidence les 
zones de forte déviation par rapport au modèle supputé et donc d’orienter, le 
cas échéant, la recherche d’un meilleur modèle. L’inconvénient est que le juge- 
ment d’acceptabilité repose sur une appréciation graphique et reste fortement 
subjectif. 


4. Le test du khi-deux s'étend aisément au test d'égalité de deux lois (ou des 
distributions de deux populations). Il suffit d'utiliser un découpage en classes 
et de se ramener ainsi à la comparaison de deux lois multinomiales exposée 
en section 10.2. Il existe également une version à deux échantillons du test de 
Kolmogorov-Smirnov fondé sur la statistique 


Dim = Sup Fn(x) — Fn(x)] 
| xER 


où F, et Fn sont les fonctions de répartition empiriques des échantillons de 
tailles respectives n et m. Quand n et m tendent vers l'infini on a : 


P((&+ 1) 12D,m <x)=1— de 2 
qui est la même probabilité que pour /nD,, < x dans le cas d’un seul échantillon. 


Ceci permet de construire un test approché. Il existe également des tables pour 
les faibles valeurs de n et m. 
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10.5 Tests non paramétriques sur des 
caractéristiques de lois 


10.5.1 Introduction 


Il y à une certaine ambiguïté en ce qui concerne les tests sur le terme de non 
paramétrique auquel les anglo-saxons préfèrent parfois celui de «distribution 
free» pour qualifier les procédures valides quelle que soit la loi mère. 
En particulier la loi F peut alors être totalement non spécifiée ce qui permet 
de parler de procédures non paramétriques. Une autre ambiguïté vient du fait 
que l’on assimile généralement les tests non paramétriques aux tests fondés sur 
les rangs des observations. Il est vrai que les tests de rangs sont, par essence, 
applicables indépendamment de la nature de la loi mère et qu’ils offrent de 
nombreuses possibilités, mais il existe d’autres tests de type «distribution free» 
comme, par exemple, les tests d'ajustement du khi-deux et de Kolmogorov- 
Smirnov vus en section 10.4.1 ou certains des tests qui vont suivre. 


Nous ne présenterons que les tests les plus courants pour illustrer la phi- 
losophie générale de l’approche non paramétrique. Étant donné, malgré tout, 
la place importante des rangs dans cette approche, nous donnons tout d’abord 
quelques propriétés les concernant. 


10.5.2 Les statistiques de rang 


On considère un échantillon aléatoire (X1,X2,..., X,) de loi F. Pour des 
réalisations (x1,%2,...,%,), le rang r; d’une valeur x; est la position qu’elle 
occupe quand les valeurs sont rangées dans l’ordre croissant. À tout vecteur 
de réalisations on peut donc associer le vecteur des rangs (r1,72,...,7n) qui 
consiste en une permutation des nombres {1,2,...,n}. Par exemple, avec n —5, 
au vecteur (8,2 ; 7,4 ;: 9,2 ; 5,1 ; 6,7) on associe le vecteur des rangs (4, 3,5, 1,2). 
Cette fonction appliquée à (X1,X2,...,X,) procure les statistiques de rang 
(R1, Ro,..., Rh). La v.a. R; sera appelée le rang de X;. Notons que si X; est 
la statistique d’ordre k alors R; est égal à k. On supposera que Fest continue 
afin d'ignorer, pour l’heure, le problème des valeurs identiques. 


La proposition suivante indique que les statistiques de rang ont une loi 
conjointe indépendante de F' et, par conséquent, que toute inférence fondée sur 
les rangs sera de nature non paramétrique. Qui plus est, cette loi est parfaite- 
ment déterminée et permettra d'établir les distributions d’échantillonnage des 
statistiques de test reposant sur les rangs. 


Proposition 10.1 La loi de (R1,R2,..., Ra) est la loi uniforme sur l’ensemble 
des n! permutations des nombres {1,2,...,n}. 
Ce résultat découle du fait que toutes les v.a. X1, X2,...,X, sont échan- 


geables, c’est-à-dire que toute permutation des composantes de (X1, X2,..., Xh) 


Chapitre 10. Tests non paramétriques 273 


a la même loi conjointe que (X1, X2,...,X,). On en déduit également les lois 
marginales des rangs. 


Proposition 10.2 Pour tout i = 1,...,n le rang R; suit une loi discrète uni- 
forme sur {1,2,...,n}. 


Ainsi (voir section 4.1.1) : 


n +1 
E(R;) = 
(R) = 
n? —1 
R;) = 
(Ri) D 


De plus on démontre que, pour tout à et tout j distincts, 


n +1 


cov(R;, R;) = 5 


Outre leur non dépendance vis-à-vis de la loi mère les statistiques de rang 
ont l’avantage de pouvoir s'appliquer lorsque les données sont peu précises et 
même simplement ordinales. Ceci est souvent le cas dans les tests psycholo- 
giques et dans les études de comportement d’achat ou de consommation, où les 
sujets sont amenés à exprimer des préférences ou à effectuer des classements. 
De plus ces statistiques sont peu sensibles aux valeurs extrêmes ou aberrantes. 


10.5.3 Tests sur moyenne, médiane et quantiles 
Test sur la moyenne 
En section 8.2.1 on à pu voir que, si u est la moyenne de la loi, on a : 
X-y 
GJyn approx 


si n est assez grand, pourvu que la loi mère admette une variance. En consé- 
quence le test de Student de la section 9.7.1 fournit un test approché pour une 
hypothèse du type H5 : u = Lo. 


N(0;1) 


Si l'échantillon est trop petit pour garantir une bonne approximation, ou 
si la loi mère peut produire des valeurs extrêmes (queues de distribution al- 
longées), ou s’il y a risque de présence de valeurs aberrantes, il sera préférable 
de recourir à un test non paramétrique concernant la médiane fi de la loi. 


Test sur la médiane : le test du signe 


Ce test est le dual de la procédure d'intervalle de confiance pour la médiane 
vue en section 8.3. Comme alors, nous supposons simplement que la fonction de 
répartition de la loi mère Fest continue et strictement croissante pour garantir 
lPunicité de la médiane. L'hypothèse nulle est Ho : Hi = Jo avec une alternative 


274 Statistique — La théorie et ses applications 


soit unilatérale soit bilatérale. Pour l’échantillon aléatoire X1,X2,...,XA la 
statistique de test est N, le nombre de ces v.a. inférieures ou égales à 719. Sous 
Ho, pour tout à on a P(X; < fio) = 3, donc N suit une loi B(n, À). 


Pour le cas bilatéral on rejette H5 si N prend une valeur soit trop grande soit 
trop petite, les valeurs critiques devant être choisies de façon conservatrice en 
raison du caractère discret de la loi binomiale (plus commodément on pourra 
se contenter d'indiquer la P-valeur de la valeur observée de la statistique). 
Considérons le test unilatéral H : & = fo (ou Ho : Hi < Ho) versus Hi : H > Ho. 
Sous A1, 0 est inférieure à la médiane et la probabilité d’observer une valeur 
inférieure à {0 est inférieure à +. N suit donc une loi B(n, p) où p < à et l’on 
rejettera l'hypothèse nulle lorsque N prendra une valeur trop petite. A l'inverse 
pour À; : H < fo on rejettera H5 lorsque N prendra une valeur trop grande. 


Ce test est appelé test du signe car, en retranchant préalablement /0 à 
chaque observation, N devient le nombre de valeurs négatives (ou nulles). 


Étant identique à un test sur le paramètre p d’une loi de Bernoulli le test est 
sans biais. Le calcul de sa puissance repose sur p = P(X; < fo) qui dépend de F 
choisi dans l’alternative H1. Étant donné que l’information initiale est ramenée 
à une information binaire on ne peut s’attendre à un test très puissant. Ceci 
est la contrepartie de sa validité très générale. 


F' étant supposée continue la probabilité qu’une valeur soit exactement égale 
à Lo est nulle. Toutefois, en raison du caractère discret de toute mesure pra- 
tique, il se peut qu’une ou plusieurs valeurs soient égales à {0 et donc inclas- 
sables dans la procédure. On dit avoir affaire à un problème d’ex aequo. Le 
remède recommandé par Lehmann (1975) consiste à ignorer ces valeurs, dimi- 
nuant d'autant la taille de l'échantillon. 


Le test du signe s'applique également au cas des échantillons appariés. 
Pour fixer les idées prenons le cas de n individus observés avant et après un 
traitement. Soit (X;, Yi), à = 1,--- ,n, les n couples d'observations correspon- 
dantes et p = P(Y; > X;). L'hypothèse nulle que la distribution est identique 
avant et après un traitement, à savoir qu’il n’y a pas d'effet du traitement, im- 
plique que p = 3. La statistique est alors le nombre de v.a. Y;— X, négatives, les 
valeurs nulles devant être écartées. Il est intéressant de noter que la procédure 
s’applique au cas discret (le test étant conditionnel aux différences non nulles) 
et lorsque l’information sur chaque couple est un simple classement. 


Le test s’étend aisément à un test portant sur un quantile en remplaçant la 
valeur p = à dans H, par l’ordre du quantile considéré. 


10.5.4 Tests de localisation de deux lois 


On considère ici qu’on est en présence de deux lois dont les fonctions de 
répartition F. et F2 ont la même forme mais peuvent être localisées différem- 
ment. En d’autres termes leurs graphes sont identiques à une translation près. 
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Nous supposons que ces lois sont continues, alors leurs densités sont également 
translatées l’une par rapport à l’autre. Une telle situation n’est pas rare, no- 
tamment pour les échantillons appariés qui feront l’objet d’une attention parti- 
culière. Remarquons d’ailleurs que la condition d'égalité des variances imposée 
en section 9.7.3 pour tester l'égalité des moyennes de deux lois de Gauss induit 
une situation de ce type. 


Mathématiquement le modèle de localisation (ou modèle de position) s'écrit : 
P(x) = Fix — 06), pour tout x ER, 


où 0 est une constante inconnue caractérisant le décalage des deux lois. Si 6 est 
positif le graphe de la densité de la deuxième loi est translaté à droite de celui 
de la première, il est à gauche si 0 est négatif. Le test porte sur l'hypothèse 
nulle d'identité de ces lois ce qui équivaut à : 


Ho:8=0 vs H:0Z0. 
On peut également envisager des tests unilatéraux. 


Nous présentons en premier lieu le test de Wilcoxon qui illustre bien l’usage 
des rangs dans l’approche non paramétrique. 


Test de Wilcoxon ou de Mann-Whitney 


Ce test a été proposé initialement par Wilcoxon (1945). Par la suite Mann 
et Whitney (1947) ont proposé une forme équivalente qui permit de préciser 
ses propriétés. 


Soit deux échantillons indépendants X3,X2,...,Xn, et Y1,Y2,...,Yn 
issus respectivement de chaque loi. Considérons la fusion des n1 + n2 valeurs 
en un seul échantillon et les rangs associés à celui-ci. La statistique de test de 
Wilcoxon est la somme des rangs de l’un des échantillons initiaux. Il est plus 
rapide de choisir celui de plus petite taille et nous supposerons qu’il s’agit du 
premier (soit n1 < n2), notant alors la somme de ses rangs 7,,. La valeur 
minimale pour 7,, est atteinte lorsque toutes les réalisations 41,Æ%2,...,%n: 
sont situées à gauche des réalisations y1,Y2,...,Yn, Sur la droite réelle et elle 
vaut 1+2+...+ mn — Sr (na + 1). La valeur maximale est atteinte lorsque 
toutes les observations x; sont situées à droite des observations y; sur la droite 
réelle et elle vaut : 


1 
(no +1) + (no +2) +: + (no + ni) = rain + Smimu +1). 


Intuitivement on est enclin à rejeter H9 lorsque la valeur de 7,, s'approche 
de l’un ou l’autre de ces extrêmes (mais un seul d’entre eux pour un cas uni- 
latéral). Pour déterminer les valeurs critiques il est nécessaire d'établir la loi de 
cette statistique sous H5. Cela peut être fait par des considérations combina- 
toires, lesquelles ont conduit à la construction de tables bien répandues. Nous 
montrons sur un exemple la démarche utilisée. 


276 Statistique — La théorie et ses applications 


Exemple 10.3 Soit les résultats suivants : 


échant. 1 n1 —4 échant.2 nm =5 | 
valeurs 15 24 12 10 35 25 20 29 16 | 
rangs 3 6 2 1 9 TT 5 8 24 | 


La statistique de test 7», prend la valeur 12. Calculons la P-valeur corres- 
pondante pour un test bilatéral en établissant la loi de 7}, sous Ho, en partant 
des valeurs extrêmes 10 et 30. 


Sous A, toutes les 9 v.a. sont de même loi et la proposition 10.1 s’applique : 
les 9! permutations des rangs sont équiprobables. Pour calculer P(T,, = 10) 
il faut dénombrer les permutations de rangs aboutissant à une somme 10 pour 
les rangs du premier échantillon. Pour cela il faut que ces rangs soient {1,2,3,4} 
dans un ordre quelconque soit 4! possibilités. Pour chacune de ces possibilités 
on peut permuter les 5 rangs restant pour le deuxième échantillon. Il y a donc 
en tout 4!5! cas possibles, d’où : 

415! 
P(Tn, = 10) = ME 0,0079365 . 

Pour l'événement (7, = 30) il faut que les rangs du premier échantillon soient 
une permutation sur {6,7,8,9} ce qui conduit à la même probabilité. Examinons 
maintenant l’événement (7», = 11). Il n’y à toujours qu’une possibilité pour 
la liste des rangs du premier échantillon, soit {1,2,3,5}, donc encore la même 
probabilité que ci-dessus. Ceci vaut également pour (7,, = 29). Enfin, pour 
obtenir (T,, — 12), deux listes sont possibles : {1,2,4,5} et {1,2,3,6}. De même 
pour (T», = 28) on a deux listes : {5,6,8,9} et {4,7,8,9}. Donc P(T,, = 12) = 
P(Ta, = 28) = 245! = 0,015873. Finalement : 


15! 


P(Ta < 12) = P(Tn 2 28) = 45 


= 0,032 

et la P-valeur, pour une alternative bilatérale, est 0,064. Si l’on se fixe comme 
niveau @& = 0,05 on doit accepter Ho. Pour une alternative unilatérale, par 
exemple que le graphe de la densité de la loi mère du deuxième échantillon soit 
translaté à droite de celui du premier, i.e. A, : Ô > 0, alors la P-valeur serait 
égale à 0,032 et il faudrait rejeter Ho, donc considérer qu’il y a bien translation 
à droite. [| 


Cet exemple est instructif sur plusieurs aspects. Tout d’abord on voit que 
le point crucial pour déterminer la loi de 7, est de dénombrer les façons 
d'obtenir un total donné en choisissant k entiers parmi les n premiers entiers 
(ici & = n1 et n — n1+n2). Ceci est un problème de combinatoire résolu par une 
relation de récurrence en partant du plus petit total. De plus, ce dénombrement 
est identique en partant du plus grand total et, par conséquent, la loi de la 
statistique est symétrique. Ainsi on peut aisément construire des tables de 
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valeurs critiques, lesquelles doivent être conservatrices vu le caractère discret 
de la loi. Enfin on voit l’intérêt de la procédure dans le cas de petits échantillons. 


Pour les grandes tailles d'échantillons (en fait n1 > 10 et n2 > 10 suf- 
fisent) on peut utiliser une approximation gaussienne découlant du comporte- 
ment asymptotique de 7}, sous H5. Pour cela il faut utiliser la moyenne et la 
variance de cette statistique sous À : 


ni (ni + No + 1) 
2 

nina(ni + n2 + 1) 
12 j 


E(T;:) = 


V(Tn:) = 


L’espérance mathématique, en raison de la symétrie de la loi, est simplement 
la demi-somme des deux valeurs extrêmes données plus haut. Pour établir la 
variance on peut utiliser les formules générales sur les moments des rangs in- 
diquées à la suite de la proposition 10.2, de la façon suivante. 


Comme T,, = ÿ "1, R;, on a, par extension de la formule sur la variance 
ni i=1 ; > P 
d’une somme de deux v.a. non indépendantes vue en section 3.5, 


VD) =D V(R)+29  cov(R;,R;) 


est à effectuer sur tous les “(2-1 couples (Ri,R;) du 


où la somme ÿ° L 


i<j 
premier échantillon tels que à < j. Comme V(R;) = RAT et cou(R;,R;) — 
et quels que soient + et j, on obtient finalement : 
(ni ci no)? —1 mu — 1) (ni + n2 + 1) 
12 2 12 
ni(ni + no +1 

Puel cr | 
nino(ni + n2 + 1) 

12 ‘ 


La statistique ÜU proposée par Mann et Whitney est la suivante : pour 
chaque Y; on compte le nombre d'observations X; qui lui sont supérieures puis 
on totalise ces nombres pour j = 1,--- ,n2. En posant : 


7 — 1 si X; > Y; 
CS 0 si X; < Y; ( 


cette statistique s'écrit : 
n1 n2 


Da NZ. 


i=1 j=1 
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On montre (voir exercices) que U est égale à T,, à une constante près : 


ni(ni + 1) 


U = Tu - 


Ainsi on peut aussi établir la procédure et les résultats précédents à partir 
de U. Certaines tables sont d’ailleurs données en fonction de cette statistique. 


Nous avons ignoré jusqu'ici le problème des ex aequo, c’est-à-dire lorsque 
deux (ou plusieurs) valeurs sont égales et ne peuvent être rangées. Le remède 
le plus simple est celui des rangs moyens qui consiste à attribuer à chacune de 
ces valeurs la moyenne des rangs qu’elles auraient totalisés si elles avaient été 
différentiées (si, par exemple, il y a deux valeurs identiques après la sixième 
valeur, chacune reçoit le rang 7,5; trois valeurs identiques recevraient le rang 
8). En théorie ceci nécessite un correctif pour la statistique de test mais qui 
reste mineur si les ex aequo ne sont pas trop nombreux. Une autre méthode 
plus efficace mais plus lourde consiste à attribuer les rangs de façon aléatoire. 


De nombreuses études, soit asymptotiques, soit par simulations pour des 
tailles d'échantillons réduites, ont été effectuées pour étudier la puissance du 
test en fonction de divers types de lois mères. Ceci est notamment vrai pour 
le cas de lois de Gauss qui mène à une comparaison avec le test de Student 
classique. Asymptotiquement le rapport de la puissance du test de Wilcoxon à 
celle du test de Student est de 0,96, cette valeur étant pratiquement atteinte 
avec des tailles d'échantillons de l’ordre de 50. Hodges et Lehmann (1956) ont 
établi que le rapport asymptotique ne descend pas au-dessous de 0,86 quelle 
que soit la loi. 


Ces résultats justifient certainement l’usage répandu de ce test. Cependant 
la condition d’un modèle de localisation est une restriction importante. Cette 
condition peut toutefois être assouplie. Si l'hypothèse alternative est de la forme 
Fi(x) > Ex) pour tout x ou Fi(x) < F(x), c’est-à-dire que les graphes 
restent totalement décalés, les propriétés du test sont globalement conservées. 


Echantillons appariés : test des rangs signés 


Ce test, également dû à Wilcoxon, est un dérivé du précédent. Il repose sur 
le fait que, si les lois mères sont identiques, la loi des différences X; — Y; doit être 
symétrique par rapport à 0. Ainsi on s'attend à ce que les rangs des différences 
absolues |[X; — Y;| se partagent équitablement pour les différences positives et 
pour les différences négatives. Ayant rangé les [X; — Y;|] par valeurs croissantes, 
la statistique de test est la somme T* des rangs associés aux différences X, — Y; 
positives. 


Soit les v.a. Z;,i—=1,-..,n, définies par 


2 = { 1 si X;, —Y; >0 


0 si À; — Y; < 0 


Chapitre 10. Tests non paramétriques 279 


Alors T+ est égal à >, iZ;. Sous Ho, Z; suit une loi de Bernoulli B(4) ce 


qui permet d'établir la loi de T*. Ses valeurs possibles sont 0,1,---, . 2e 

la valeur 0 étant atteinte lorsqu'il n’y à aucune différence LE et Le valeur 

n(n+1) 
2 


lorsque toutes les différences sont positives. Dans le premier cas cela 
porte à croire que la (densité de la) loi mère des X; est décalée à gauche de 
celle des Ÿ; et, dans le deuxième cas, qu’elle est décalée à droite. Ceci oriente 
donc le sens du rejet pour un test unilatéral. 


On trouve aisément des tables de valeurs critiques et l’on peut utiliser une 
approximation gaussienne dès que n > 30 en utilisant la moyenne et la va- 
riance de TT. Comme E(Z;) = +, V(Z;) = ? et que les Z; sont mutuellement 
indépendantes (comme fonctions respectives des paires (X;,Y;) ), on a : 


one ee, 
E(T*) rade 


4=1: 


PR — n(n +1)(2n +1) 
V(T = Ô 
EE 24 
sachant que 12+22 +... + n2 = ln(n +1)(2n +1). 
6 


Sous A. les Z; ont une loi B(p) avec p = P(X;—Y; > 0) et la puissance peut 
être calculée en fonction de p, lequel dépend toutefois de la loi mère des X;—Y;. 
Dans un problème de localisation le test est sans biais et est plus puissant que 
le test du signe mentionné en section 10.5.3. 


Le test des rangs signés est parfois employé comme alternative au test du 
signe dans le cas d’un seul échantillon, mais cette pratique est contestable en 
raison de la condition forte de symétrie de la loi mère, peu réaliste dans 
une approche non paramétrique. 


Test de la médiane 


Ce test opère dans le même cadre que le test de Wilcoxon pour deux échan- 
tillons indépendants et relève du même esprit que le test du signe. On détermine 
la médiane des n1 + n2 valeurs fusionnées et l’on considère le nombre d’obser- 
vations du premier échantillon inférieures à cette médiane globale. Désignons 
par N, la statistique correspondante. Supposons par commodité que n1 + n2 
est pair et posons n1 + n2 = 2r, de façon qu'il y ait exactement r observations 
à gauche comme à droite de la médiane globale (celle-ci peut être indifférem- 
ment n'importe quelle valeur entre les deux observations les plus centrales). 
Sous l'hypothèse nulle d'identité des deux lois on s’attend à une valeur de N 
proche de n1/2 et l’on rejettera donc H si la réalisation de cette statistique 
s'éloigne trop de n1/2. Étant donné que l’échantillon fusionné a été divisé en 
deux parties de taille égale et que, sous Ho, toutes les v.a. sont ï.i.d., la loi 
de N;, nombre d’observations parmi n1 observations appartenant à l’ensemble 
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des r plus petites valeurs, correspond à la définition même (voir section 4.1.5) 
d’une loi hypergéométrique H(2r,r,n1). On en déduit immédiatement : 
— ni + nina 
E(M) = — et VIN) = "|, 
(= (M1) Ana + no — 1) 

valeurs à utiliser pour une approximation gaussienne dès lors que n1 et n2 sont 
assez grands. Si n1 + n2 est impair on montre, en posant n1 +n2 = 2r +1, que 
N, suit une loi H(2r + 1,r,n1). Ainsi, dans ce cas 


nina(ni + n2 + 1) 
A(ni + no)? 


et V(N) — 


Comme on peut s’y attendre ce test est moins puissant que le test de 
Wilcoxon du fait qu’il ignore les rangs des observations (ainsi, pour la com- 
paraison dans le cas de lois mères gaussiennes, le rapport asymptotique de sa 
puissance à celle du test de Student tombe à 0,63 contre 0,96 pour le test de 
Wilcoxon). En contrepartie sa portée dépasse le seul modèle de localisation. Il 
peut être appliqué, par exemple, comme test d'égalité des médianes des deux 
lois. Par ailleurs il offre un substitut au test de Wilcoxon si le nombre d’ex 
aequo est important suite à une forte discrétisation des données recueillies. Son 
pendant pour deux échantillons appariés est le test du signe décrit plus haut. 


Estimateur de Hodges-Lehmann du décalage des deux lois 


On cherche à estimer le paramètre Ô qui caractérise le modèle de localisation, 
à savoir tel que : 


Pi(x) = F(x — 6), pour tout x ER, 


où F est la fonction de répartition des X; et F, celle des Y; On peut estimer 
ponctuellement 6 par la différence 7 — T7 des moyennes observées dans chaque 
échantillon et fournir un intervalle de confiance approché avec la procédure 
classique de Student (supposant que ces lois admettent une moyenne et une 
variance). Toutefois, pour de petits échantillons et/ou en présence de valeurs 
extrêmes, il est souhaitable de disposer de procédures plus fiables. Hodges et 
Lehmann (1963) ont proposé une approche en relation avec les tests non pa- 
ramétriques que nous exposons dans le cas du test de Wilcoxon-Mann-Whitney, 
le principe étant identique pour d’autres tests. Nous nous intéressons parti- 
culièrement à l'intervalle de confiance. 


Pour une valeur arbitraire 00, on détermine la valeur {», (00) prise par la 
statistique de Wilcoxon pour la série fusionnée : 


tien Piye 28 Dino. UL — O0s 2e 29 Uÿ — 00, 22 SYUna-— 00: 


En vertu de l’équivalence test-IC (voir section 9.8) on prend comme IC de 
niveau 1 — a pour 6 l’ensemble des valeurs 6 telles que t, (60) reste à l’intérieur 
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des valeurs critiques au niveau a du test. Ceci est justifié par le fait que, si 00 
est la vraie valeur, les X; et les YŸ; — 6 ont la même loi et la statistique Ts, (60) 
suit alors la loi parfaitement déterminée sous H4 pour des échantillons de taille 
n1 et No. 


Faire varier 00 peut être fastidieux mais cela n’est pas nécessaire car on 
montre que cet IC peut être obtenu de façon simple et directe comme suit. On 
a vu plus haut que la statistique T,, de Wilcoxon a, sous A, une loi symétrique 
sur l’ensemble des entiers de LUN +1) à nina + Sn (nr +1). Soit k, le plus 
petit entier tel que, sur cette loi, la probabilité associée à l’intervalle : 


1 1 
Grau + 1) + Ke nin2 + jratu + 1) Te ka] 


soit au moins égale à 1 — a. On considère alors la série des n1n2 valeurs y; — x; 
pour tous i et j. L’intervalle de confiance de niveau (conservateur) 1—a s’obtient 
en prenant comme bornes les statistiques d’ordres k, et nin2 — k, +1 de cette 
série de valeurs. 


Pour l'estimation ponctuelle on choisit la valeur à telle que t», (60) coïncide 
avec la valeur de probabilité maximale sur la loi de référence. On montre que 
cette estimation est simplement la médiane de la série des y; —x;. Cette méthode 
fournit des estimateurs sans biais. 


Exemple 10.4 Reprenons l'exemple 10.3. On a vu que, pour n1 = 4 et n1 = 5, 
la statistique 7}, peut prendre les valeurs entières de 10 à 30 et que 


P(Tn, < 11) + P(Tn, > 29) = 0,032. 


Donc P(12 < Th, < 28) = 1—0,032 alors que P(13 < Ty, < 27) = 1—-0,064. 
Pour a = 0,05 on a donc ko,05 = 2. La série des y; — x; ordonnée est : 


—8, -4,1,1,4,5,5,6, 6,8, 10, 10, 13, 14,15, 15, 17, 18, 19, 20 


donc l'intervalle de confiance est [—4:; 19] et l’estimateur ponctuel est 9 (en 
prenant pour médiane la valeur milieu entre 8 et 10). 


L'approche classique donne pour estimation ponctuelle y—7 = 9,75. L’inter- 
valle de confiance ci-dessus étant en fait de niveau 0,968, celui de même niveau 
obtenu par la formule de Student (voir section 7.4.3) avec ou — 2,67 est 
[-2,7;22,2]. Ce dernier a une amplitude plus grande mais les deux intervalles 


restent assez semblables du fait qu’il n’y a pas de valeurs extrêmes. E 


10.5.5 Test pour la corrélation de Spearman 


Nous présentons brièvement ce test pour illustrer encore l’intérêt des pro- 
cédures reposant sur les rangs. On considère un couple (X,Y) de fonction 
de répartition conjointe Fxy(x,y) inconnue et un échantillon de taille n : 


282 Statistique — La théorie et ses applications 


(X1,Y1), (X2, 2), ,(Xn, Yn), issu de cette même loi. On souhaite tester l’hy- 
pothèse nulle d'indépendance de ces deux composantes du couple, soit : 


Ho: Fxy(x,y) = Fx(x)Fy(y) pour tout (x,y) € R?, 


où F>x et Fy sont les lois marginales des composantes. L’alternative H; est la 
négation de Ho, à savoir qu’il existe au moins un couple de valeurs (x, y) tel 
que Fx,y (x, y) À Fx(x)Fy (y). 


En 1904 Spearman a proposé comme statistique de test la corrélation des 
rangs que nous notons Rs. Elle est obtenue simplement en remplaçant, séparé- 
ment, dans chaque composante les observations par leurs rangs et en calculant 
sur ces derniers la corrélation linéaire empirique vue en section 9.7.7. Notons 
que la valeur prise par Rs sera égale à 1 (respectivement -1) si Ÿ est une 
fonction croissante (respectivement décroissante) de X. La corrélation de rangs 
a pour intérêt de mettre en évidence des liens non linéaires. 


Sous HA, on s’attend à ce que R, reste proche de zéro. Comme cette statis- 
tique repose sur les rangs sa loi ne dépend pas de Fx ni de Fy. En établissant 
(voir exercices) que À; peut aussi s’écrire : 

ñ 2 
Em, - "ut 
il 
n(n? —1) ! 
12 


R, = 


où À, est le rang de X; et S; celui de Y;, et en utilisant l’espérance et la variance 
d’un rang données à la suite de la proposition 10.2, on montre aisément que : 


E(R.:) =0 


Par ailleurs on montre que : 


vn—2Rs 
V/1-RÈ 


suit approximativement une loi de Student à n — 2 degrés de liberté, ce qui est 
à rapprocher du résultat de la section 9.7.7 concernant la corrélation linéaire. 
Pour les faibles valeurs de n on dispose de tables des valeurs critiques à différents 
niveaux. 


Nous avons vu quelques tests non paramétriques parmi les plus courants. Les 
tests fondés sur les rangs sont d’une grande variété et font l’objet d'ouvrages 
spécifiques. Citons par exemple le livre collectif édité par Droesbeke et Fine 
(1996), celui de Lecoutre et Tassi (1987) ainsi qu’en anglais Lehmann (1975) 
et Gibbons (1985). 
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10.6 Exercices 


Exercice 10.1 Montrer que le test du khi-deux de la section 10.2 est le test 
d'égalité des paramètres de deux lois de Bernoulli vu en section 9.7.6. 
Aide : on s’inspirera de la démarche de la section 10.1.4. 


Exercice 10.2 Soit un couple (#, ÿ) de variables catégorielles, Æ avec I caté- 
gories notées {1,--- ,2,--: ,[} et V avec J catégories notées {1,-:- ,7,--: ,J}. 
Montrer qu’elles sont indépendantes si et seulement si il y à indépendance entre 
tous les couples élémentaires (1, j) de catégories croisées. 

Aide : Soit À = {i1} un événement sur %et B = {1,2} un événement sur 
Y. (ie. le résultat de l'expérience est la catégorie 71 ou j2), montrer que À et B 
sont indépendants si {i1} est indépendant de {71} et de {j2} respectivement, 
puis généraliser. 


Exercice 10.3 Dans le contexte du test exact de Fisher (section 10.3.2) mon- 
trer que sous l’hypothèse d’indépendance on a : 


n1.! no! ni! no! 


P(Nu = nur, n2.,n1,n.2) = la lle 
niN11:712: 721: 722: 
avec les contraintes nécessaires sur n11, 112, N21 et N22. 
En déduire que la loi de la v.a. N;1 conditionnellement aux marges est une loi 
H(n,ni.ni). 

Aide : on suivra la même démarche que dans la démonstration du même 
type de la section 9.7.6. 


Exercice 10.4 (Test de McNemar) Soit un échantillon apparié de n couples 
d'individus. Sur chacun des 2n individus on observe une même variable bi- 
naire succès/échec. Pour chaque couple on a donc une variable catégorielle à 
4 catégories. Les probabilités et les fréquences (entre parenthèses) sont notées 
selon le tableau ci-après : 


Indiv.2 < : 
Indiv.1 succès échec 
succès Pii (n11) P12 (n12) P1. (n1.) 
échec P21 (nai) P22 (n22) pP2. (n2.) 
pi(ni)  pa(no) 1 (n) 


On considère l'hypothèse nulle que la probabilité de succès est la même 
pour les deux individus d’un couple, i.e. 45 : p1. = p1. 
1. Donner la fonction de vraisemblance pour cette loi multinomiale à 4 catégories 
sous Ho. (aide : noter que H6 équivaut à p12 = pa1 et intégrer les contraintes 
dans la fonction de vraisemblance comme en section 10.1.1) 


2. Donner les estimations du MV des p;; sous Ho. 
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3. En déduire les estimations des fréquences attendues sous H6 et montrer que 
la réalisation q de la statistique Q du test du khi-deux pour H est : 


= (n12 — noi)? 


N12 + No1 


4. Quels sont les degrés de liberté de la loi asymptotique de cette statistique 
sous À ? 


Exercice 10.5 Démontrer la relation entre la statistique U de Mann-Whitney 
et 7», de Wilcoxon. 

Aide : on considérera les statistiques d'ordre X(1,, X(2,,..., X(n,) et les 
rangs correspondants R(1), R(2),..., R(n,)y. On exprimera alors chacun de ces 
rangs en fonction du nombre d'observations Y; inférieures à la statistique 
d'ordre à laquelle il correspond. 


Exercice 10.6 Montrer que la corrélation de Spearman peut s’écrire 


n n(n+1)? 
Dies Rai — LS | 


n(n2—1) 


Rs 
12 


Aide : utiliser les formules générales de décentrage : 


nm 


nm nm 
DE — T)(yi — 7) = DRE” —nTy et Ÿ (x = x)? = Ste — nx°. 
i=1 i=1 


i=1 


Exercices appliqués 


Exercice 10.7 Une enquête sur la gêne causée par la proximité d’un aéroport 
a donné, par sexe, les résultats suivants : 


1 Le Femmes Hommes | Tous 
Gêne 
Aucune 75 35 110 
Faible 25 27 52 
Moyenne 17 8 25 
Forte 3 12 15 
120 82 202 


Identifier la situation d’échantillonnage et poser l'hypothèse nulle correspon- 
dant à la question informelle : la gêne est-elle identique pour les deux sexes ? 
Tester cette hypothèse nulle. 


Chapitre 10. Tests non paramétriques 285 


Exercice 10.8 Lors d’une enquête auprès de 825 familles ayant eu 3 enfants 
on a relevé le nombre de garçons dans chaque famille comme suit : 


Nombre de garçons | 0 1 2 3 | Tous 
fréquences 71 297 336 121 | 825 


On fait l'hypothèse que les sexes des enfants lors des naissances successives 
au sein d’une famille sont des variables catégorielles indépendantes et que la 
probabilité p d’avoir un garçon reste constante. Déterminer en fonction de p 
la loi du nombre de garçons pour une famille de 3 enfants. Estimer p et tester 
l'hypothèse de départ. 

Aide : on utilisera le test du khi-deux avec l’estimation de p usuelle par le 
maximum de vraisemblance. 


Exercice 10.9 On donne, pour une agglomération, la répartition du nombre 
de jours sans accident, avec un accident etc., parmi 50 jours d'observation tirés 
au hasard dans une année : 


nombre d’accidents | nombre de jours 
0 21 
1 18 
2 7 
3 3 
4 1 
total 510 


Tester que la répartition du nombre quotidien d'accidents suit une loi de Pois- 
son. 

Aide : on effectuera le test du khi-deux en regroupant les catégories de façon 
à ne pas avoir de fréquences inférieures à 5. Pour simplifier on estimera À par 
l’estimation usuelle du maximum de vraisemblance. 


Exercice 10.10 Dans une enquête auprès de 93 étudiant(e)s sélectionnés au 
hasard dans une université on pose une question sur le mode de logement avec 
4 modalités de réponse : seul (S), dans la famille (F), en couple (C) et autres 
modes (A). Les résultats obtenus par sexe sont les suivants : 


S EF C A 
Féminin | 12 11 14 12 
Masculin | 15 6 9 14 


Tester l'hypothèse d'indépendance du mode de logement et du sexe. 


Exercice 10.11 Un échantillon de 490 utilisateurs de téléphones portables a 
été constitué avec des quotas d’âge, c’est-à-dire qu’on a sélectionné des per- 
sonnes au hasard jusqu’à atteindre un nombre fixé de personnes dans chaque 
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classe d'âge. Celles-ci ont été interrogées sur l’opérateur choisi. Le tableau ci- 
dessous donne la répartition des choix effectués en fonction de l’âge de l’utili- 
sateur. 


opérateur 1 | opérateur 2 | opérateur 3 
10-19 17 32 57 
20-35 38 72 64 
36-50 53 42 39 
51 + 30 19 27 


Identifier la situation d’échantillonnage appropriée et exprimer formellement 
l’hypothèse correspondant à la formulation suivante : il n’y a pas de relation 
entre l’âge et le type d’opérateur choisi. Tester cette hypothèse. 


Exercice 10.12 Une enquête par sondage est menée parallèlement dans deux 
pays de l’Union Européenne sur la répartition des revenus dans une catégorie 
bien déterminée de salariés. On obtient les résultats suivants : 


Salaire mensuel (euros) | Pays À | Pays B 
<1200 4 6 
1200-1600 22 18 
1601-2000 20 18 
>2000 14 6 
Ensemble 60 48 


Identifier la situation d’échantillonnage appropriée. La différence entre les répar- 
titions des revenus observées dans les deux pays est-elle significative ? 


Exercice 10.13 Les données du tableau qui suivent ont été étudiées par le 
statisticien belge A. Quetelet (1796-1874) et reprises de l’ouvrage de W.S. 
Peters : Counting for Something (Springer-Verlag, N.Y., 1986). Elles concernent 
les mesures (en pouces) de tour de poitrine de 5 738 soldats écossais. 


Mesure 33 34 35 36 37 38 39 40 
Fréquence | 3 18 81 185 420 749 1073 1079 
Mesure A1 42 43 44 45 46 47 48 

Fréquence | 934 658 370 92 50 21 4 1 


Tester l’ajustement d’un modèle gaussien pour ces données. 
Aide : il s’agit de données regroupées (par arrondi au pouce le plus proche) 
pour lesquelles on procédera comme indiqué en section 10.4.1 à ce propos. 


Exercice 10.14 On a interrogé deux échantillons indépendants de 30 per- 
sonnes chacun. Le premier échantillon est constitué de personnes apparte- 
nant à des ménages avec enfant(s), le deuxième de personnes appartenant à 
des ménages sans enfant. À la question «Considérez-vous que l’éducation des 
enfants est actuellement trop permissive ?» on a demandé aux enquêtés de 
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répondre en se positionnant sur une échelle ordonnée de 1 (oui, tout à fait) à 5 


(non, pas du tout). Les résultats obtenus sont les suivants : 


Réponse : | 1 2 3 4 51|6 
avec enfant | 4 11 5 8 2 | 30 
sans enfant | 2 6 8 8 6 | 30 
Ensemble | 6 17 13 16 8 | 60 


On veut tester l'hypothèse qu’il n’y a pas de différence d’attitude entre 
les deux types de personnes. Étant donné les tailles relativement réduites des 
échantillons d’une part, et le flou de la mesure effectuée d’autre part, on 
procédera à un test non paramétrique. 

Aide : vu qu’il n’y à que 5 valeurs possibles on aura un nombre d’ex aequo 
important. On préférera donc le test de la médiane au test de Wilcoxon. Les 
observations correspondant à la valeur médiane générale devront être ignorées. 


Chapitre 11 


Régressions linéaire, 
logistique et non 
paramétrique 


11.1 Introduction à la régression 


À différentes reprises nous avons dit dans les chapitres précédents que tel ou 
tel résultat avait une validité au-delà du cadre strict des échantillons aléatoires 
constitués de variables aléatoires i.i.d.. L'objectif de ce chapitre est de mon- 
trer comment les méthodes classiques doivent être adaptées lorsque les v.a. 
observées restent indépendantes mais ne sont plus identiquement distribuées. 
Ceci peut être illustré avec profit dans les modèles explicatifs appelés modèles 
de régression. 


De façon informelle, un modèle explicatif est un modèle exprimant une 
variable y, appelée variable à expliquer (ou réponse), comme une fonction d’une 
ou de plusieurs variables dites variables explicatives ou prédicteurs!. Toutefois 
si l'entité V est considérée comme une variable aléatoire Y, un terme aléatoire, 
caractérisant l’incertitude de la prédiction, doit être introduit d’une certaine 
façon dans l’équation du modèle. 


Dans un modèle de régression, on cherche essentiellement à déterminer la 
variation de l’espérance mathématique de Y en fonction des variables ex- 
plicatives. En d’autres termes on étudie comment Y évolue «en moyenne» en 
fonction de ces variables explicatives. Dans ce chapitre, par souci de simplifica- 
tion, nous ne considérons qu’une seule variable explicative ce qui constitue 
la régression simple par opposition à la régression multiple. De plus cette entité 


lUn tel modèle ne restituant pas nécessairement une relation de cause à effet directe le 
terme de prédicteur serait plus approprié. 
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explicative, que nous symboliserons par la lettre 4, sera une variable quantita- 
tive?, pouvant prendre toute valeur dans un intervalle 1 de R. Aux différentes 
valeurs de # dans 7 correspondent, par hypothèse, des v.a. distinctes et on est 
donc, en fait, en présence d’une famille de v.a. {Y(x)| x € I}. Admettant que 
pour tout x l’espérance mathématique existe, alors E(Y(x)) est la fonction 
g(x) qu’il s’agit de rechercher. Cette fonction mettant en évidence l’évolution 
moyenne de l'entité Y à expliquer en fonction de x est appelée fonction de 
régression. Dans cette approche on considère naturellement que l’incertitude 
de la prédiction de Y pour le «niveau» x de %, se manifeste par une v.a. 
e(x) venant s'ajouter à la composante déterministe g(x). Dans sa forme la plus 
générale un modèle de régression simple s'écrit donc : 


Y{x) = g(x) + (x). 


Puisque E(Y (x) ) = g(x), on a nécessairement E(e(x)) = 0, quel que soit x. La 
v.a. e(x) est appelée erreur ou aléa (d’où la notation habituelle du «e» grec). 
Dans la plupart des modèles on suppose que l’erreur est de même loi quel que 
soit x ce qui permet d'écrire Y (x) = g(x)+e (on écrit même parfois simplement 
Y = g(x) +e en omettant d'indiquer que la v.a. Y est assujettie à la valeur x). 


Le premier modèle que nous étudierons est le modèle de régression linéaire 
où g(x) = Bo + 1x, que l’on écrira donc : 


Y(x) = Bo + Bit +e. 


Ce modèle est le plus simple qui soit et, de ce fait, est celui qui est utilisé le 
plus fréquemment. Il stipule qu’en moyenne l'entité V varie linéairement en 
fonction du niveau de l’entité 4, ce qui est une hypothèse souvent réaliste. Par 
exemple le poids moyen des individus (adultes d’un même sexe) ayant une taille 
donnée x peut être considéré comme une fonction croissant linéairement avec x. 
La régression linéaire constitue le point de départ historique et méthodologique 
de toute la modélisation explicative. Ce modèle a été proposé par Francis Gal- 
ton dans son ouvrage Natural Inheritance publié en 1889, notamment pour 
l’étude de la variation de la taille d’un homme en fonction de celle de son père. 
Il a choisi le terme de «régression» constatant qu’en moyenne un père grand 
tendra à avoir un fils plus petit que lui (et vice-versa pour un père petit). 


Le deuxième modèle présenté dans le chapitre est le modèle logistique dont 
la particularité est que la variable à expliquer est binaire, du type «succès» ou 
«échec». On la codera comme précédemment par 1 ou 0 pour que Y(x) soit, 
pour tout x € I, une v.a. de Bernoulli. On essaie, par exemple, de déterminer 
dans quelle mesure le fait d’avoir ou de ne pas avoir d’incident cardiaque à un 
certain âge est lié au taux sanguin de cholestérol. Dans l'écriture de ce modèle 
de régression nous introduirons une fonction g(x) particulièrement adaptée au 
fait que Y (x) prend les valeurs 1 ou 0. 


2La variable explicative pourrait être catégorielle ce qui, dans le cas de la régression 
linéaire, correspond à l’analyse de variance à un facteur. 
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Ces deux premiers types de modèles sont des modèles paramétriques car la 
fonction de régression g(x) est de forme connue mais dépendant de paramètres 
inconnus (comme fo et 1 dans le cas de la régression linéaire) qu'il s’agira 
d'estimer. Tous deux permettront d'illustrer l’application des méthodes pa- 
ramétriques classiques des chapitres 6, 7 et 9. Dans le premier cas on obtient 
des solutions exactes simples. Dans le second cas on verra comment utiliser 
la méthode du maximum de vraisemblance et les propriétés asymptotiques de 
VPEMV lorsqu'il n’y a pas de solution explicite. L'intérêt de cette présentation 
réside dans le fait que la démarche est celle appliquée en statistique pour la 
plupart des modèles complexes. 


Le troisième type de modèle sera le modèle non paramétrique où la fonction 
de régression g(x) est totalement inconnue et doit être estimée. Nous sommes là 
face à un problème d’estimation fonctionnelle comme pour l’estimation d’une 
densité ou d’une fonction de répartition, vue en section 8.5. 


Le modèle conditionnel 


Dans notre exposé l'entité explicative # est une variable déterministe, 
ce qui a des implications sur la façon dont les observations sont effectuées. 
Cela suppose en effet que l’on se trouve dans des conditions expérimentales 
avec un choix planifié des valeurs %:,2%2,--- ,x, de #, c’est-à-dire fixées à 
l’avance selon ce qu’on appelle un plan d'expérience. Supposons par exemple 
que l’on veuille étudier linfluence du taux d’engrais (en kg/hectare) sur le ren- 
dement (en tonnes/hectare) d’un type de céréale. On sème alors n parcelles 
expérimentales traitées avec des taux d’engrais choisis æ1,%92,--: ,æ, (certaines 
valeurs pouvant être répétées). On considère que le rendement de chaque par- 
celle est une variable aléatoire du fait des multiples facteurs, autres que le 
taux d'engrais, qui le déterminent (pour preuve, les valeurs seront certainement 
différentes si l’on répète l’expérience). Les valeurs de rendement y1,Y2,--: ,Un 
effectivement observées seront donc traitées comme des réalisations de variables 
aléatoires Y1,Y2,-:-,YA. Ici Y; symbolise la loi du rendement pour un niveau 
d'engrais æ;, dont la moyenne est E(Y;) = g(xi). Ces v.a. Y1,Y2,--- ,Y, sont 
supposées indépendantes mais non de même loi puisqu'elles diffèrent au moins 
par leur moyenne. Il s’agira alors d’estimer, à partir de ces observations ef- 
fectuées en quelques valeurs de # dans J, la fonction g(x) pour tout x € I, où 
Test la plage de variation du taux d'engrais qui intéresse l’expérimentateur. 


Bien souvent, on ne se trouve pas dans de telles conditions expérimentales 
mais plutôt dans le cadre d'observations répétées d’un couple de v.a. (X,Y). 
Prenons, par exemple, le cas d’un sondage effectué pour étudier la variation 
du revenu Y en fonction de l’âge Æ dans une population. En tirant au ha- 
sard un individu on génère un couple aléatoire (X,Y) où X est la valeur 
de l’âge et Y est la valeur du revenu. Pour n individus on observe alors un 
échantillon aléatoire (X1,Y1),(X2,Y2),::: ,(Xn, Ya) à valeurs dans R?. Pour les 
valeurs effectivement observées (41,y1), (æ2,y2),--: ,(œn, Un), les æ1,%2, +++ ,%n 
doivent être considérées comme des réalisations de v.a. au même titre que les 
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Y1,Y2, °°; Yn- En effet, contrairement aux circonstances précédentes les valeurs 
des x; ne pouvaient être connues avant expérience, car résultant du proces- 
sus de sélection au hasard. L'objectif essentiel restant d'étudier comment «en 
moyenne» le revenu varie en fonction de l’âge, la fonction de régression g(x) est 
alors l'espérance mathématique de la loi conditionnelle de Y sachant 
X = x, notée E(Y|X = x), soit : 


g(æ) = E(YIX = x). 


Néanmoins, dans le modèle classique de régression, les valeurs x:,x2, 

-, Æn ne sont pas traitées comme des réalisations de variables aléa- 
toires, ce qui facilite grandement les calculs. Stricto sensu les développements 
de ce chapitre ne sont valables que conditionnellement aux valeurs prises par 
les X;. Le modèle de régression n’est donc, en principe, pas approprié dans 
une situation d'observations répétées d’un couple de variables aléatoires. Les 
propriétés d’optimalité conditionnelle des estimateurs, par exemple, peuvent 
être perdues lorsqu'on prend en compte le caractère aléatoire des X;. Toutefois 
on constate généralement que ces estimateurs conservent des qualités assez 
proches, voire même identiques. Aussi le praticien applique-t-il les procédures 
de la régression quelles que soient les circonstances de la collecte des données. 


Le formalisme conditionnel étant plus général car permettant d’envisager 
que la variable explicative puisse avoir un statut aléatoire, nous l’adopterons 
comme la plupart des auteurs. Mais il est clair que les résultats issus du modèle 
conditionnel s’appliqueront de la même façon à la situation décrite initialement 
avec l’exemple du rendement d’une céréale. 


11.2 La régression linéaire 


11.2.1 Le modèle 


Nous supposons donc que la fonction de régression est de la forme : 
E(YIX = x) = Bo + Biz 


pour æ appartenant à un certain intervalle 7. De plus nous supposons que la 
variance de la loi conditionnelle de Y sachant X = x ne dépend pas de x et est 
égale à o?. Enfin nous faisons l’hypothèse que cette loi est gaussienne, quel que 
soit x. Nous reviendrons toutefois par la suite sur cette condition qui n’est pas 
cruciale. Notons que la linéarité du modèle est relative aux paramètres Bo et 
B1, et que l’on peut substituer à X des transformées In X, VX, X? etc., pour 
atteindre éventuellement la linéarité du modèle. 


Le modèle contient donc trois paramètres inconnus : Ho, B1 et o?. Pour 
estimer ces paramètres nous considérons une série d’observations indépendantes 
Y1,Y2,---,Y, situées, respectivement, aux niveaux æ1,%2,...,%n de la variable 
explicative fixés (on suppose naturellement qu’au moins deux de ces valeurs sont 
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distinctes). Ainsi, pour tout à, Y; > N(Bo + Biri, o?). Il est aussi commode 
d'utiliser la notation : 


Yi = Bo + Biti + Ei ; i=1,...,n. 
Pour tout à on a donc €; > NW(0 ,o?). L'indépendance des Y; entraîne celle des 
KeTTeUrS) €1,€2,...,€n qui sont donc des variables aléatoires 1.i.d.. 
11.2.2 Les estimateurs du maximum de vraisemblance 


La fonction de vraisemblance des trois paramètres, associée aux réalisations 
V1, Y2, °°: ; Un, est : 


T1 1 
L(Bo, B1, 0°) “Il ra Pi 929? [ui (Bo + Bixi)]? ke 


D'où la log-vraisemblance : 


In L(Bo, B1, 0?) = —n(In V2x + mo?) _ DE (Bo + Bati)]?. 


En annulant les dérivées partielles successivement par rapport Bo, 8 et o? on 
obtient les équations de vraisemblance : 


Dizalyi — (Bo + Bixi)] = 0 
Dia dilyi — (Bo + Bix)] = 0 
5 + 590 Dial — (Go + Bixi)]? = 0 
Les deux premières équations ne dépendent pas de o? et, étant linéaires en Ho 


et B1, peuvent être résolues. De la première équation on déduit fo = y — 1x, 
puis en remplaçant dans la deuxième : 


Or Din? TDi ai = Da? — nt? = D, (x; — T)? selon la formule 
bien connue de centrage-décentrage de la statistique descriptive et, de la même 
façon, 5. 1 TiYi — DE mp 1 TiYi — nTy= 1 (ri — 7)(u 7). D'où 
finalement, en substituant les Ÿ; aux y;, les estimateurs du MV de B et B : | 


Il est intéressant de noter que les deux premières équations de vraisem- 
blance correspondent à la minimisation du terme 32°; [y — (Bo + Bixi)]? dans 
l'expression de la log-vraisemblance. Pour une solution quelconque (455,87), la 
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différence y; — (55 + 6Ÿx;) est appelée résidu car elle correspond à l’écart entre 
la valeur observée et celle donnée par le modèle ainsi estimé. On voit donc que 
le couple (Bo: B). est la solution qui minimise la somme des carrés des résidus. 
De ce fait B et B sont aussi appelés estimateurs des moindres carrés. 
Montrons que Bo et Br sont respectivement sans biais pour Ho et B1. On a : 


nm 


= De E( = 25 (0 + Bi) = Bo + BiT 


4—1 
EM -Y) = 60 + 22 — (Bo + 17) = Bi(x: — Z). 
D'où : 
ns. Ne (meer). 
E(B) = SE Gen = Bi. 
E(fo) = E(F) — E(A)r = Po + BE — Bit = Po. 


On en déduit que Bo + B1æ est sans biais pour E(Y|X = x), l'espérance de la 
réponse pour la valeur x de la variable explicative. 


Pour calculer les variances de ces estimateurs notons que le numérateur de 
l'expression de 3 s’écrit aussi 377, (x; —T)Y; puisque D, (x; —7) = 0. Donc: 
v(B) = Déni = TE) V(M) _ a Die 7) o° 
— = — — 
Eine) Giat-e)) Ein) 


Pour f% on a V(Bo) = V(Y)+72V(B;) 2 cov(Y, 61). Or 


con nn) 


| . i COv 
Pene eo MPN 


et, comme cou(Y;, Ÿ;) = 0 si j Zi, cov ( ï) = cov (1 Yi Ki= + Om 


d’où : 


De plus : 


cou(Po, À) = cou(Y — Biz, B) = cov(Y, 61) —-TV(B) 


Il 
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En posant 8 = (M0,/)' et B = (Bo, Bit nous résumons ces résultats (avec 
les notations pour les vecteurs aléatoires introduites en section 3.8) par : 


52 


; É T° ) To 
© Fr = = F = 
= = M -} alt e) lis) 
9 


E(B)=8 et V(B)= 


TO o? 


_Dintm 3) Di=i(œi 7) 


Comme fo et 1 sont chacun une combinaison linéaire des Ÿ;, d’après le 
théorème de caractérisation 3.1 le vecteur aléatoire 8 est gaussien. Sa loi est 
donc parfaitement définie. 


Déterminons maintenant l’estimateur du MV de o?. Il se déduit de la 
dernière équation de vraisemblance selon : 


= SM (B+ Ar), 


i=1 


expression dans laquelle on retrouve la somme des carrés des résidus (sous 
sa forme aléatoire). Pour étudier la distribution d’échantillonnage de 6? on 
admettra la proposition suivante. 


Proposition 11.1 La va. 5 > [Yi — (Bo + Biz]? suit une loi du khi-deux 
à n — 2 degrés de liberté. De plus elle est indépendante de l’estimateur B. 


Pour la première assertion cette proposition est à rapprocher du théorème 
5.1 concernant la variance d’un échantillon, la démonstration faisant appel à 
des considérations similaires. La perte de deux degrés de liberté s’explique par 
le fait qu’il y a deux liaisons linéaires déterministes entre les Y; — (50 + B1x;) 
correspondant aux deux premières équations de vraisemblance. L'indépendance 
est à rapprocher de celle vue en proposition 5.3 entre moyenne et variance 
empiriques. 


De cette proposition nous déduisons que E(57_,[Y; — (Bo + Bixi)?) = 
(n—2)o?. L’espérance mathématique de 6? est donc #20? : cet estimateur est 
biaisé. C’est pourquoi on lui préfère l’estimateur sans biais, obtenu en divisant 
la somme des carrés des résidus par n — 2, que nous noterons S?, soit : 


= DU + Arf. 
i=1 


On montre que les estimateurs Bo. Bi et S? sont chacun UMVUE. 
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Si les x; sont choisis de telle sorte que pour tout n leur variance des- 
criptive D %_,(x; — t)?/n admette une borne inférieure strictement positive 
indépendante de n et leur moyenne T7 admette une borne supérieure également 
indépendante de n, on voit immédiatement que V(o) et V(B) tendent vers 
0 quand n — ©. Alors Bo et Bi sont convergents en moyenne quadratique. 
Sachant que la variance d’une v.a. de loi x?(n — 2) est 2(n — 2) on a V(S?) — 
20+/(n — 2) et S? converge aussi (vers a?) en moyenne quadratique. 


11.2.3 Intervalles de confiance 


Pour fH et 51 on dispose d’une quantité pivot de même type que celle utilisée 
pour la moyenne d’une loi de Gauss en section 7.4.1. Pour B1, par exemple, on 
a : Le 

Bi — Bi 
oVI iii - 7) 


d’où, en estimant o? par $?, on obtient comme pour le théorème 5.2 : 


Bi - & 
S/ se 1e) 


On posera S2(B) = 52/ Dr (ti — x)? pour noter l’estimateur de la variance 


> N(0;1) 


me t(n — 2). 


de 1. La variable aléatoire (À — B)/ S(B) est donc une fonction pivot qui 
conduit immédiatement à l’intervalle de confiance suivant : 


ICo05 (81) = [Ai — 497 s(À1) ; À + Eos s(À)] 


2 5 
s(B1) _ ; 
= 1(ti — 7)? 
s désignant la réalisation de S (et B désignant indifféremment l'estimation ou 
l’estimateur de H1). De même on obtient : 


ICo,95 (Bo) = [80 : il s(Bo) : Bo + re s(Bo)] 


où s(Bo) = s/( + or). 


Il est intéressant de construire un IC pour l'espérance de la réponse Go + 1x 
au niveau æ de la variable explicative. On a : 


V(Bo + Biz) = V(Bo) + 2x cov(Bo, À) + à? V(B) 


n Ê CELL APE Er) 
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Par des développements tout à fait analogues aux précédents on obtient : 


ICo,95 (Bo + B1t) = 
[Bo + Biz — ii ee s(Bo + Biæ) ; Bo + Pix + 4 ie s(Bo + Bix)] 


_ 2 
s(Bo + Bit) = 8 e due _ — 22 


On constate que la largeur de l’IC est d’autant plus grande que l’on s'éloigne 
de la valeur centrale 7 des valeurs fixées pour la variable explicative. 


On peut également établir (voir les exercices) un intervalle de prédiction 
pour une observation au niveau x de la variable explicative. 


11.2.4 Test H5 | Bi = 0 


Ce test est essentiel car il décide de l’intérêt du modèle (ou de la «significati- 
vité» de la variable explicative). En utilisant le résultat de la section précédente 
on déduit que, sous H5, B/S(B1) suit une loi de Student à n — 2 degrés de li- 
berté. On rejettera donc Ho au niveau a si : 


(n—2) (n—2) 
= € [ti ae» ti_ayal 


Ce test est uniformément plus puissant parmi les tests sans biais. Comme pour 
le test de Student usuel vu en section 9.7.1 sa puissance pour une vraie valeur 
1 se lit sur une loi de Student non centrale de paramètre de non centralité 


B1/ VV (B). On ne peut obtenir qu’une valeur approchée de cette puissance 
du fait que V(B:) doit être estimé. 
Notons que si le test est accepté la loi conditionnelle de Y sachant X = x 


ne dépend pas de x : les v.a. Y; sont toutes i.i.d. de loi W(B,,a?) et l’on se 
retrouve dans la situation classique d’un échantillon issu d’une loi de Gauss. 


Approche par l’analyse de variance* 


On peut préférer aborder ce test par la voie de la relation de décomposition 
de la somme des carrés totale. En effet cette relation et la formulation du test 
qui s’ensuit ont une validité générale pour tout type de modèle linéaire (en 


3Ne pas confondre avec le modèle d’analyse de variance qui concerne des variables expli- 
catives catégorielles. 
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particulier, on indiquera cela pour la régression multiple en section 11.2.7). 
Posons, pour simplifier les développements, % — Bo + Bi1x:. La relation est : 


nm nm nm 


SG - 7) + (ui -%). 


i=1 i=1 i=1 


S 
= 
nt 
N 
[ 


Sa démonstration est proposée dans les exercices. Le premier terme est appelé 
somme des carrés totale car il exprime la variabilité des y; indépendamment 
de tout modèle explicatif. Le deuxième terme se nomme somme des carrés ex- 
pliquée par le modèle du fait qu’il ne prend en compte que les valeurs modélisées 
dont il rend compte de la variabilité (on vérifiera sans peine que la moyenne 
des ÿ; est égale à y). Le troisième terme est la somme des carrés des résidus. 
Démontrons la proposition suivante concernant la somme des carrés expliqués 
en tant que variable aléatoire : 37*_,(Ÿ; — Y)?. 


Proposition 11.2 Sous l'hypothèse Ho : B1 = 0, on a : 


Démonstration : en vertu de la relation de décomposition exprimée en termes 
aléatoires on peut écrire : 


nm nm nm 


DB-PP=S M - PSM - fo - Pix), 
i=1 = i=1 
soit, en substituant Bo = Y — A7 : 


Dé-725m-7-5[m-"-GG-2] 


Gi - 2-7) - BV (x -7). 


Il 
: 
il: 


i=1 
De l'expression de B en section 11.2.2 on déduit : 
> — 7)(M - Y) = bi DRE = T) 
i=1 i=1 
d’où, en substituant ce terme : 
DP-Y) = RS (x -7) 
i=1 i=1 


Or, sous l'hypothèse 3 = 0, VD (ai — #)2/0? suit une loi W(0;1) et 


son carré suit une loi x?(1), ce qui prouve la proposition. M 
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pu la proposition 11.1, + 2) — Ÿ:»2 est indépendant de B et donc 


de 25 re a 7, LOve ide a) . Sous H4 ces deux v.a. suivent, 
respectivement, des lois x?(n — 2) et x?(1). Le rapport de la seconde à la 
première, après division par leurs degrés de liberté, suit donc une loi de Fisher 
F(1,n —2). Le paramètre a? disparaissant et la somme des carrés des résidus 
s’écrivant (n — 2)S?, ce rapport est : 


On voit que si f1 0 la somme des carrés expliquée tendra à être supérieure 
à S? et F peut être envisagée comme statistique de test incitant à rejeter Ho 
pour des valeurs trop élevées sur la loi F(1,n—2). En effet il ny a pas lieu de 
rejeter H, lorsque Fest faible puisque cela abonde dans le sens de l’hypothèse 
P1 — 0. Notons que ce test est équivalent au test de Student présenté initiale- 
ment car, d’une part, la statistique F est le carré de la statistique H1/S(f1) et, 
d’autre part (voir en fin de section 5.5), le carré d’une v.a. de loi t(n — 2) est 
une v.a. de loi F(1,n — 2). 


L'usage veut que l’on présente les résultats menant à cette statistique sous 
forme d’un tableau d’analyse de variance (voir le tableau de l'exemple 11.1 ci- 
après), cette appellation venant du fait que l’on y met en évidence les termes 
de la décomposition de la variabilité totale à travers les sommes de carrés. 


11.2.5 Cas non gaussien 


Le couple (Bo, B) n’est plus estimateur du MV mais demeure l’estimateur 
des moindres carrés de (Bo, 3) car minimisant D, [yi — (Bo + Bixi)]?. Par 
analogie avec l’estimation de la moyenne d’une loi à partir de la moyenne 
empirique 7 qui est la valeur de a minimisant 37°, (x;— a)?, l’estimation de la 
droite de régression y = fo+/1x par la droite des moindres carrés y = B + Bixi 
semble être assez naturelle. Ceci est corroboré par le théorème suivant qui 
s'applique à toute la modélisation linéaire et y justifie la prééminence de la 
méthode des moindres carrés. 
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Théorème 11.1 (Gauss-Markov) Les estimateurs des moindres carrés Go et 
P1 sont, respectivement, estimateurs de variance minimale pour Bo et BP: parmi 
les estimateurs sans biais fonctions linéaires des Y.. 


La démonstration est proposée dans la section des exercices. En réalité cette 
proposition s'étend à toute combinaison linéaire de Bo et Bi. et en particulier, 
pour tout x, B + Bix est estimateur de variance minimale de + /Zx parmi les 
estimateurs linéaires sans biais. Bien que la classe où B et Bi sont optimaux soit 
plus réduite qu’avec l’hypothèse gaussienne, la propriété n’en reste pas moins 
intéressante, d'autant plus qu’elle n’exige aucune hypothèse sur le type de loi 
des erreurs (Hoi bien sûr l'existence de la variance qui est implicite). Notons 
que les trois estimateurs Bo. Bi et S? restent sans biais car les démonstrations 
précédentes ne recouraient pas à la nature gaussienne des Y;. Pour B et Bi la 
convergence en moyenne quadratique est assurée dans les mêmes conditions que 
ci-dessus. Quant à celle de S? elle n’exige que l’existence du moment d’ordre 4 
de la loi des erreurs. 


Les tests et intervalles de confiance sont étonnamment robustes, le théorème 
central limite agissant indirectement. Toutefois cette robustesse connaît des li- 
mitations de même nature que pour l’inférence sur les moyennes de lois. En 
premier lieu la loi ne doit pas produire de valeurs extrêmes (i.e. pas de queues 
de distribution trop allongées). Par ailleurs la condition de variance constante 
(«homoscédasticité») ne peut être assouplie que dans une faible mesure. On 
peut éventuellement recourir à une transformation de Ÿ pour stabiliser la va- 
riance (par exemple par la fonction Arcsin si Ÿ est une proportion, par sa racine 
carrée si c’est un comptage de type Poisson). 


11.2.6 Régression et corrélation linéaires 


Considérons un couple de v.a. (X, Y) et adoptons les notations Lx, y. a%, 
a? et p pour leurs moyennes, leurs variances et leur coefficient de corrélation 
linéaire. Supposons que la fonction de régression E(Y|X = x) soit linéaire. On 
montre alors (voir exercices) qu’elle est nécessairement de la forme : 


© 
E(YIX = x) = puy +0 (x — ux). 
Ox 


Donc on à, dans les notations précédentes, B1 — he On peut constater 
immédiatement que la même relation vaut pour les estimateurs correspondants, 
1.e. Bi = = RÈ + où R est la corrélation linéaire empirique définie à la fin de la 
section 5.2. On en déduit que À est l’estimateur du maximum de vraisemblance 
de p. En effet : 
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et B. S X, Sy sont les estimateurs du MV respectifs de H1, ox, 0y (SZ et s2 
désignent les variances empiriques, S% et S? les variances d’échantillon, voir 
définitions 5.4 et 5.5). 


Comme oy et ox sont strictement positifs, 81 = 0 si et seulement si p = 0. 
En particulier les hypothèses Ho : 1 = 0 et H{ : p = 0 sont équivalentes. 
Par conséquent, si l’on dispose d’un test pour l’une des hypothèses il vaut 
pour l’autre. Nous pouvons appliquer cela au cas d’un vecteur gaussien car il 
est facile de montrer que la fonction de régression est linéaire (voir exercices). 
Distinguons les deux situations de recueil des données, à savoir avec un plan 
d'expérience (où les valeurs de X sont fixées à priori) ou avec des observations 
de X elles-mêmes aléatoires. Dans le premier cas le test H5 : 1 — 0 de la 
section 11.2.4 peut être considéré également comme un test de non corrélation 
entre les deux variables aléatoires X et Y. Nous examinons maïntenant plus en 
détail la deuxième situation. 


Soit un échantillon de taille n : (X1 Y1), (X2, 2), ,(X,, Y,). Nous avons 
vu en section 9.7.7 un test de H6 : p = 0 fondé sur un tel échantillon. Ce 
test reposait sur la statistique /n — 2R/V1 — R? qui, sous Ho, suit une loi 
t(n — 2). Nous avons admis ce résultat que nous sommes maintenant en me- 
sure de démontrer. Notons X = (X1,X2,...,Xh) et x = (%1,%2,...,%n) une 
réalisation de X. Considérons la statistique F vue plus haut (section 11.2.4) 
dans laquelle on remplace les x; par les v.a. X;. Les développements précédents 
indiquent que la loi de F conditionnellement à X = x est, sous H5, la loi 
F(1,n — 2). Cette loi ne dépend pas de x ce qui signifie que, sous Ho, la 
statistique F est indépendante de X. La loi non conditionnelle de F (ou loi 
marginale) est donc aussi la loi F(1,n—2). Ainsi F calculé à partir des couples 
(X;,Y;) peut être utilisé comme statistique de test pour H : p = 0. Pour ce 
qui concerne la mise en oeuvre ce test ne se distingue donc pas de celui vu plus 
haut lorsque les x; sont fixés. Montrons qu’on a affaire au même test que celui 
proposé en section 9.7.7 et, pour simplifier, raisonnons sur les réalisations. 


D'une relation établie lors de la démonstration de la proposition 11.2, on 
déduit : 


2 _ Dinti-Ew-m 
Di (æi a D Di (gi SU 
7 fî Di (æi a) 
Di (i — 7)? 
= DU D 7) 
Di (gi — 7) 


En raison de la décomposition de la somme des carrés totale on voit que le 
rapport de la somme des carrés des résidus à cette dernière est égal à 1 — r? 
(r? est appelé coefficient de détermination, voir section 9.7.7). Donc F (réalisé) 
peut s’écrire : 
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(n — 2)r? 

1— 7? 
Sa racine carrée est la réalisation de la statistique de Student (en valeur absolue) 
de la section 9.7.7. Or une v.a. de loi t(n — 2) élevée au carré est une v.a. de 
loi F(1,n — 2) ce qui prouve que les deux tests sont identiques. 


F = 


Il est intéressant de noter que la loi non conditionnelle de F est une loi 
F(1,n — 2), sous H5, quelle que soit la loi marginale de X. Pour que le test 
s’applique rigoureusement il suffit donc que, pour tout x, la loi conditionnelle 
de Y sachant X = x soit gaussienne de variance a? indépendante de x et que 
la fonction de régression de Y sur X soit linéaire. 


Nous venons de voir que le test usuel Ho : G1 = 0 est utilisable même si les 
æ,; sont des réalisations de v.a. X;. On montre que les autres résultats établis 
conditionnellement aux x; fixés restent également valables à condition que la loi 
marginale de X ne dépende pas des paramètres / et B1 définissant la fonction 
de régression de Y sur X. 


Exemple 11.1 Pour une enquête on a eu recours à 54 enquêteurs. Pour chacun 
d’entre eux on dispose du nombre d’entretiens qu’il a effectués et de la durée 
médiane de ceux-ci*. On cherche à vérifier si le nombre d’entretiens effectués X 
est un facteur explicatif de la durée de l’entretien Y. On a calculé initialement : 


54 54 54 
5 = 08.57 = 30,586. 27 49748; Sy = 087,28; S au = 15817. 
i=1 i=1 4: 


On en déduit les estimations suivantes : 


= 


Bo = 33,668 ; i—-0,05911 :; 5? — 20,473 
s2(Bo)=1,1057 ; s2(51)—0,0002589 ;  <où(Bo, Bi) = —0,01371. 


Pour le test de l'hypothèse H, : f1 = 0, la statistique de test prend la valeur 


t = Bi/V s? (B:)= -3,68 ce qui correspond, pour la loi de Student t(52), à une P- 
valeur de l’ordre de 0,001. Le nombre d’entretiens effectués est donc un facteur 
explicatif très significatif de la durée médiane de ces entretiens. Le même test 
peut être conduit à partir du tableau d’analyse de variance ci-après. 


Source Somme des Carrés ddl Carrés Moyens F  P-valeur 
Expliquée 276,53 1 276,53 13,51 0,001 
Résiduelle 1064,59 52 20,47 

Totale 1341,12 53 


Pour un niveau æ = 50 entretiens on obtient une estimation de l’espérance 
de la durée médiane des entretiens égale à : 


Bo + 1.50 = 30,713 


4Source : Centre d'Etudes des Supports de Publicité, Paris. 
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et un intervalle de confiance de niveau 0,95 associé : 


ICo,95 (Bo + 1.50) = [30,713 — 409):.0,618 ; 30,713 + 1652,.0,618] 
soit, avec #9) — 2,007, l'intervalle [29,47 ;31,95]. La figure 11.1 indique les 
limites de confiance en fonction du niveau de x ainsi que les limites de prédiction 
(plus larges) décrites dans les exercices. Au vu de la dispersion des points autour 
de la droite de régression la condition de variance constante est plausible. 


© 
Lo] 
e] = 
nn 
: 7 | 
dus ln à ° 
3 © PR 0 Un 
. ne Se TPE 
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e e 
e 
© - 
A en. 
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Nombre d'interviews 


Figure 11.1- Données «enquêteurs» : droite de régression, limites de confiance, 
limites de prédiction. 


11.2.7 Extension à la régression multiple 


Dans cette section nous montrons succinctement que l’étude du modèle 
de régression simple s’étend sans difficultés en présence de plusieurs variables 
explicatives. Dans le formalisme du modèle conditionnel présenté en section 
11.1 on considère p prédicteurs X1,X2,...,X, et une fonction de régression de 
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Y de la forme : 
EVA = Mika = Modus À = 0%) = Go + Biti + °° + Bt 


pour les niveaux respectifs t1,æ%2,...,x, de ces prédicteurs. Les autres hy- 
pothèses restent identiques : lois conditionnelles de Ÿ gaussiennes et de même 
variance o?. Soit une série d'observations indépendantes YA, Y2,..., YA où Y; est 
observé pour les valeurs %i1,%:2,...,œi des variables explicatives. On recourt 
alors à l'écriture matricielle suivante. On définit le vecteur des observations 
Y = (Ï,Y2,...,Yh)t, puis le vecteur des p + 1 paramètres inconnus 
B = (Bo, B1,...,/%)" et la n x (p + 1)-matrice du plan d'expérience X dont 
la i-ème ligne est (1,æ;1,%2,..., tin). On à alors, avec les notations de la sec- 
tion 3.8 


E(Y)=X8, V(Y)= 01, 


où I, désigne la matrice identité d'ordre n. 


La log-vraisemblance s'écrit comme en section 11.2.2 en remplaçant Go + 
Bit: par Bo + Bit +: + Pptp. Les équations de vraisemblance obtenues 
en dérivant par rapport à chacun des p + 1 paramètres forment un système 
linéaire de p + 1 équations dont l'écriture matricielle est (X'X)8 = X!°Y. On 
suppose que les vecteurs colonnes de X sont linéairement indépendants (.e. 
n > p et pas de redondance d’information dans les vecteurs prédicteurs ni de 
combinaison linéaire entre eux donnant un vecteur constant, ce qui signifierait 
une surparamétrisation du modèle). Alors la matrice X!X est inversible et on 
a la solution unique : 


B= (XX) 'x'Y. 
B est également le vecteur des estimateurs des moindres carrés, c’est-à-dire tel 


que : 
x 2 
|Y - xô] = min [Y — XBI° 


Sal 12 2 +. $ 
où ||.||” représente la norme euclidienne usuelle d’un vecteur de R”. D’après la 
proposition 3.13 on a : 


B) = (X'X) "X'E(Y) = (X'X) 'X'X8 = 
B) = (XX) x V(Y)X(X!X) = 62(X'X) !. 


ZT 
TS 


Sachant que B me N41(8, o(X'X) !) on peut procéder à tout type d’infé- 
rence concernant les paramètres du modèle. Il est notamment intéressant de 
tester des hypothèses du type Ho : 6x — 0 permettant (pour k > 1) de décider 
de la pertinence de tel prédicteur particulier en présence des autres prédic- 
teurs. La statistique de test est analogue à celle de la régression simple pour 
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H5 : P1 = 0 à cette différence près que le nombre de degrés de liberté de la loi 
de Student devient égal à n — (p + 1). Ceci découle du fait que la somme des 
carrés des résidus ne comporte plus que n — (p + 1) degrés de liberté. Compte 
tenu de cette modification on peut construire un tableau d’analyse de variance 
semblable à celui de la régression simple. La statistique F permet alors de 
tester l'hypothèse globale H5 : 1 = B2 = +: — BP, = 0, les valeurs critiques se 
rapportant à la loi F(p,n — (p+1)). 


Au-delà du modèle de régression qui stipule l’existence d’une fonction de 
régression, un modèle linéaire dans sa forme la plus générale se définit comme 
un vecteur d'observations Y tel que E(Y) = XB et V(Y) = o?1, comme 
ci-dessus. Ceci inclut notamment les modèles d'analyse de variance où les va- 
riables explicatives (appelées alors facteurs) sont catégorielles ce qui conduit à 
introduire dans la matrice X des variables indicatrices des différentes catégories 
induites par ces facteurs. 


Les modèles linéaires généralisés constituent un vaste ensemble d’exten- 
sions du modèle de régression multiple où, d’une part, les Ÿ; répondent à 
d’autres types de lois paramétriques que la loi de Gauss et, d’autre part, la 
fonction de régression s'exprime sous la forme g(B0 + Bix1 + --: + 6x») où 
g est une fonction connue. Le modèle logistique présenté ci-après en offre une 
illustration particulièrement importante. 


Pour un traitement plus complet de la régression linéaire on pourra consul- 
ter, pour les aspects mathématiques, l'ouvrage classique de Seber (1977) et, 
pour les aspects pratiques, le livre de Dodge (1999). 


11.3 La régression logistique 


11.3.1 Le modèle 


Ce modèle est adapté au cas où la variable à expliquer est binaire. En 
utilisant le codage 1/0 on la transforme en variable aléatoire de Bernoulli. Plus 
précisément, dans le formalisme conditionnel exposé en section 11.1, la loi de 
Y sachant X = x est une loi B(p(x)). La fonction de régression à estimer est 
donc : 


E(YIX = x) = p(x) 


où p(x) = P(Y =1]X = x). Plus prosaïquement, le problème est de déterminer 
comment la probabilité de «succès» évolue en fonction du niveau de la variable 
X. Par exemple : quelle est la probabilité que le client d’une banque détienne 
des valeurs mobilières, en fonction de son niveau de revenu ? 


Nous ne sommes donc plus dans le cadre précédent et le modèle de régression 
linéaire usuel n’est, en principe, pas approprié. Nous disons «en principe» car 
ce modèle est très robuste vis-à-vis de l'hypothèse gaussienne dans la mesure où 
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l’on a un nombre suffisant d'observations, au même titre que l’approximation 
d’une loi binomiale par une loi de Gauss. Mais le modèle linéaire pose problème 
pour une raison majeure : la fonction p(x) n’y est pas contrainte dans l’inter- 
valle [0,1] et les estimations peuvent donc produire des valeurs négatives ou 
supérieures à 1. Le modèle logistique remédie à cela. 


Ce modèle stipule que la probabilité conditionnelle de succès est de la forme : 


ePo+Bix 
px) = 1 + eBo+ñix © 
La fonction : : 
g(u) == er 


est appelée fonction logistique, elle est strictement croissante et prend ses va- 
leurs dans l’intervalle [0,1] (voir figure 11.2). Sa fonction inverse est : 


ü 


1 

u) = In 
g7 (u) = 
et s'appelle fonction logit®. Pour une loi de Bernoulli B(p) le rapport 1 a 
une certaine signification. On l’appelle parfois la chance ou la cote de succès 
(en anglais : odds). Dans le modèle logistique le logarithme de ce rapport est 
donc une fonction linéaire de la variable explicative : 


nm _?@) 


een 


Le modèle comporte donc deux paramètres inconnus Ho et 1. On notera par 
B le couple (Bo, B1) ou, indifféremment, le vecteur (Bo, 81)*. Contrairement à la 
régression classique il n’y a pas de variance de l’erreur à estimer puisqu’une loi 
de Bernoulli B(p(x)) ne dépend que du paramètre p(x). 


11.3.2 Estimation de la fonction p(x) 


Supposons que nous observions indépendamment les v.a. binaires Y1,Y2,---, 
Y, aux points Z1,%2,-:-:, æ, de la variable explicative et déterminons l’esti- 
mateur du maximum de vraisemblance de 8. Pour tout i, Y;  B(p(x:;)) et la 
fonction de probabilité de Y; est (voir section 4.1.2) : 


p(y) = pri) (1—p(a))Y, y € {0,1}. 
La fonction de vraisemblance de 8 associée à une réalisation (y1,Y2,--- ,yn) de 
(M,Y2,:-: ,Yn) est donc : 


nm 


L(B) = [[ tr)" (A — p(x)) 


i=1 


5Ceci amène une confusion entre modèle logit et modèle logistique. L'usage le plus répandu 
est de parler de régression logistique lorsque, comme ici, la (ou les) variable explicative est 
quantitative et de modèle logit lorsqu'elle (ou elles) est catégorielle. 


Chapitre 11. Régressions linéaire, logistique et non paramétrique 307 


UT 


AE. 
1+e 
0,5 
Ü T T 8 T T Le 
-6 -4 -2 0 2 4 6 


Figure 11.2 - Fonction logistique. 


avec : 
— exp(Po + Bit) 


_ 1+exp(Bo + Bit) 


La log-vraisemblance est égale à : 


In L(B) = > {im p(as) + (1 — y) ft — p(xi)]} 


Les deux équations de vraisemblance sont établies en dérivant cette fonction 
par rapport à Ho et par rapport à f,. Dans un premier temps considérons la 
dérivée de la fonction logistique g{u) : 


e" et 1 


1+et)2 THEME = g(u)[1 — g(u)]. 


g'() = 
Ainsi : 


aa Pt) = p(xi)[1 — p(xi)] 


gp (ri) = ti p(ri)[1 — p(ri)]. 


La dérivée du i-ème terme de la log-vraisemblance par rapport à Go est donc : 


p(xi)[1 — p(x:)] px) — p(x:)] 


pes) et) 0 


ÉL=#) 


Vi 
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et, de même, celle par rapport à f1 est x;[y; — p(x;)]. D'où les équations de 
vraisemblance : 


ou, faisant apparaître GB et Bi : 
S exp(Bo + Bit) | ar 
Zi 1+exp(bo + Br) Z . 


. exp(fo + Biti) | 
Sa 1H exp(%0 Es Bit) >» 


i=1 


Ces équations n’ont pas de solution explicite et paraissent complexes. Toutefois 
elles ne posent pas de difficultés pour être résolues de façon itérative pour don- 
ner l’estimateur du MV ê = (Bo, B). On en déduit l’estimateur de la fonction 
de régression en x quelconque : 

ePo+Bx 


P(x) = 


1+ ePo+Bix è 


11.3.3 Matrice des variances-covariances de 


En approximation on utilise les propriétés asymptotiques de l’estimateur du 
MV. Soit 1(8) la 2 x 2-matrice d’information de Fisher de 8, on a alors (voir sec- 
tion 6.7.4) V(B) = [I(8)]-!. Explicitons la matrice I(8). En posant f(y;/8) pour 


la fonction de probabilité conjointe du vecteur aléatoire Y = (Y1,Y2,--:,Y,) 
au point y = (y1,Y2,-:: ,Yn), on à (voir section 6.6.4) : 
Ô 
”. E(e In f(Y:; s)) Gas In f(Y: 5) 
Ps Tu) -E(En/v#) 


Or In f(y;8) n’est autre que la log-vraisemblance vue ci-dessus dont il faut 
calculer les dérivées partielles secondes, soit : 


® 0 
De ML) = 5g 2 lu — vies — =D (x:) = = À rt JL — p(xi)]. 


De même : 


pa LD = a Di real = pol — pr) 
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et : 
ÉL nes d 
06008 RAI Se 


Ces dérivées secondes ne dépendant plus des y; elles sont inchangées quand on 
passe aux espérances mathématiquesf, d’où : 


Dept) Dept - p(r:) 
= | Fi 
Dmn(li-p(a)] De? p(ælt — p(r.) 


Comme B est inconnu il faut estimer I(8) par I(B), c’est-à-dire substituer D{x;) 
à p(x;) dans l'expression ci-dessus de I(8). En inversant I(8) on obtient une 
estimation de V(B) que nous notons : 


où s?(Go) est une estimation de la variance de 3, s?(/31) est une estimation de 
la variance de B, et s?(Bo, 1) est une estimation de la covariance entre Ho et 
Bi. 

Grâce à ces estimations on peut obtenir des intervalles de confiance et effec- 


tuer le test essentiel AH, : 51 = 0 pour décider de la significativité de la variable 
explicative. 


11.3.4 Test H, : Bai = = 0 


En raison de la normalité asymptotique du maximum de vraisemblance, 
sous Ho la statistique 1/s(B1) suit approximativement une loi W(0:1) et on 
rejettera l'hypothèse de nullité au niveau 0,05 si sa réalisation n’est pas comprise 
dans l'intervalle +1,96. Ce test est le test de Wald donné dans les logiciels. 
Parfois ce test est présenté avec le carré de la statistique ci-dessus dont la 
valeur critique doit alors être lue sur une loi x?(1). 


On peut également envisager le test du rapport de vraisemblance généralisé 
fondé sur la déviance : 


-2 [n LB) — in L(B)] 


6$i, comme généralement dans les modèles complexes, les dérivées secondes avaient été 
fonction des y; on aurait été contraint d’estimer les espérances en prenant les expressions des 
dérivées secondes telles qu’elles apparaîtraient ci-dessus. 
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où Br est la valeur de B maximisant la log-vraisemblance In L(B) sous l’hy- 
pothèse Ho, c’est-à-dire avec : 


pl à exp fo _. 


1+exp# 


Seule subsiste alors la première équation de vraisemblance 37, (y; — po) = 0 
dont la solution est Po = ED la proportion de succès observée. Cette 
solution est naturelle puisque sous H, les Y; sont des variables aléatoires de 
même moyenne et donc i.i.d.. On en déduit : 


qui permet de calculer la déviance ci-dessus. Celle-ci suit approximativement 
une loi x?(1) car Ho ne spécifie qu’un seul paramètre. Ce test donne des 
décisions généralement en accord avec celles du test de Wald. Notons qu’il 
existe un autre test, appelé test du score, qui est encore plus proche du test du 
RV. 


11.3.5 Intervalles de confiance 


Toujours en vertu de la normalité asymptotique de B on peut utiliser le 
calcul de la matrice V(B) pour établir un IC sur chaque composante de 8. Par 
exemple, pour fo, on a : 


ICo,o5 (Bo) = [Po — 1,96 s(Bo) : Bo + 1,96 s(B0)]. 


Toutefois l’intervalle de confiance qui nous intéresse le plus concerne la 
proportion de succès p(x) pour une valeur donnée x de la valeur explicative. 
Considérons tout d’abord un IC sur S + Bx. Asymptotiquement, son estima- 
teur du MV Go + Pix est gaussien et de variance : 


V (Bo + Biz) = V(Bo) + 2x cou(Bo, 1) + x? V(B) 
que l’on estime par : 
82(80 + Biz) = s2(Bo) + 22 57 (Bo, À) + 2? 8° (B4). 
D'où l'IC approché : 
ICo.95 (Bo + Pix) © [Bo + Pix — 1,96 s(B0 + Pix); Bo + Pix + 1,96 s(B0 + B1x)] . 


De cet intervalle on déduit celui sur p(x) en appliquant aux deux bornes la 


6 à e" 
fonction croissante g(u) = Fe. 
e 


Cette procédure est la procédure duale (voir section 9.8) du test de Wald. 
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Exemple 11.2 Lors d’une enquête de santé publique 307 individus d’âges va- 
riant entre 18 et 85 ans ont été étudiés’. Parmi ceux-ci 133 souffraient d’une 
maladie chronique. Sachant que la proportion de personnes ayant une maladie 
chronique augmente avec l’âge, on envisage un modèle logistique pour esti- 
mer la probabilité d’un tel type d’affection en fonction de l’âge. La solution 
des deux équations de vraisemblance obtenue par un logiciel mathématique ou 
statistique est : 


Bo = —2,284 
Bi = 0,04468. 


La probabilité d’avoir une maladie chronique à l’âge x est donc estimée par : 
(x) = —2,284+0,04468 x . 


En calculant les ÿ{x;) pour chacune des observations on déduit l'expression de 
la matrice I(B) qui est inversée pour donner : 


——. 0,1349 —0,2639 x 1072 
Va) = ( —0,2639 x 1072  0,5814 x 1074 ) 


La réalisation de la statistique de Wald pour tester H5 : 1 = 0 est égale à 
0,04468/4/0,5814 x 104 = 5,86 ce qui correspond à une P-valeur pratiquement 


nulle (2x107°). L'âge est donc un facteur explicatif très significatif pour la 
présence d’une maladie chronique. 


Pour le test du RVG on a : 


In L(Bx,) = (5 ») In Do + (5 " s)) m(1 — Do) 
avec Po — 133/307 = 0,4332. Soit : 
In L(By,) = 133 In(0,4332) + 174 In (0,5668)= — 210,1. 
De même on calcule : 
In L(B) = Ÿ {yiinp(æi) + (1— y) Inf1 — p(x:)]} 
i=1 


—190,4 


pour obtenir finalement la valeur prise par la déviance : 


—2 [in L(Bzr,) — In L(B)| = 39,4 


TEchantillon non représentatif extrait de l'enquête Health Statistics 1990 auprès de 7200 
personnes, effectuée par Statistics Netherlands. 
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qui donne aussi une P-valeur quasi nulle sur la loi y2(1). Notons que le carré 
de la statistique de Wald réalisée est (5,86)? — 34,3, ce qui est proche de la 
valeur obtenue par le RVG. 


Donnons un IC à 95% pour 1. On a : 


ICo5 (1) = [0,04468 — 1,964/0,5814 x 104; 0,04468 + 1,964/0,5814 x 104] 


= [0,02974 ; 0,05963]. 


Certains logiciels statistiques donnent un IC pour e°!, soit ici [1,030 ; 1,060]. 


Cette valeur, estimée ici par e1 — 1,046, a une signification particulière. 
Comme 1 correspond à l’accroissement du logit de p(x) quand x s’accroît 
d’une unité, e"1 est le rapport des chances (odds ratio) d’une année à l’autre. 


Voyons maintenant un IC sur la probabilité d’avoir une maladie chronique 
à l’âge de 50 ans. On à 3 + Bi x 50 = —0,050 et P(50) = 0,488. Puis : 


2(Bo + Bi x 50) = 0,1349 + 2 x 50 x (—0,2639)? + (50)? x 0,5814 x 1074 
= 0,01635. 


L'intervalle de confiance pour Bo + B x 50 est donc —0,050+1,964/0,01635 soit 
[0,301 ; 0,201], d’où finalement : 


ICo,95(p(50)) = [0,425 ; 0,550]. 


Il est intéressant de constater qu’un modèle linéaire ajusté sur la variable 
réponse 1/0 donne une estimation : 


P(x) = —0,0166 + 0,0101 x 


qui se différencie très peu de celle du modèle logistique. En effet pour x = 50 on 
obtient une probabilité identique 0,488 et pour les âges extrêmes de 20 et 80 ans 
on obtient respectivement 0,185 et 0,791 contre 0,199 et 0,784 pour l’approche 
logistique. Ceci s'explique par le fait que la plage d’âges observée se situe dans 
la partie centrale et quasi linéaire de la courbe logistique (voir figure 11.2). M 


11.3.6 Remarques diverses 


1. La régression logistique illustre l’intérêt de la méthode du maximum de 
vraisemblance. Dans un modèle complexe il est peu probable de pouvoir 
dégager des estimateurs optimaux des paramètres. Cette méthode ga- 
rantit (moyennant des conditions faibles de régularité) des estimateurs à 
faibles biais - et ceci d’autant plus que la taille d’échantillon est élevée 
- dont on peut par ailleurs estimer les variances et covariances pour 
construire des tests et intervalles de confiance approchés. 
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2. Le modèle logistique n’est évidemment pas la panacée. Une condition 
nécessaire, mais non suffisante, pour qu'il s’applique est que la probabilité 
soit de toute évidence une fonction monotone de la variable explicative. 
Parmi d’autres possibilités signalons les modèles probit et gompit. Le 
premier utilise à la place de la fonction logit g(u) la fonction de répartition 
Du) de la loi W(0;1). Celle-ci restant toutefois très proche de g(u), 
le modèle correspondant ne se différencie pratiquement pas du modèle 
logistique. Le modèle gompit utilise la fonction h(u) = 1 — exp(— exp(u)) 
qui permet d’attribuer des probabilités plus fortes sur les extrêmes mais 
n’est pas symétrique. À l'instar de l'exemple précédent, bien des situations 
peuvent simplement être modélisées par une fonction linéaire. Même pour 
une réponse binaire les tests et IC vus en section 11.2 fournissent des 
résultats approchés corrects. Ceci confirme la forte robustesse du modèle 
linéaire vis-à-vis de l'hypothèse gaussienne. 


3. Divers diagnostics et tests ont été proposés pour vérifier l’adéquation du 
modèle (notamment le test de Hosmer et Lemeshow, 2000). Une façon 
simple et rapide de vérifier si p(x) semble bien suivre l’allure voulue est 
de grouper les données par classes (par exemple former des classes d’âge 
dans l’exemple ci-dessus), de calculer dans chaque classe la proportion 
de succès observée et de tracer de manière lisse la courbe passant par les 
points dont les abscisses sont les milieux des classes et les ordonnées sont 
les proportions correspondantes. 


4. Comme pour la régression linéaire la régression logistique peut s'étendre 
à une régression multiple (plusieurs variables explicatives). Les principes 
de calculs sont une extension naturelle de ceux vus ci-dessus qui ne pose 
pas de difficultés spécifiques. 


5. Si la variable explicative est catégorielle on peut appliquer la régression lo- 
gistique en introduisant les variables indicatrices de chaque catégorie, sauf 
pour l’une d’entre elles qui sert alors de catégorie de référence. Ceci est à 
rapprocher de l’analyse de variance à un facteur du modèle linéaire. Tou- 
tefois, comme dans le cas linéaire, on a affaire à des interprétations par- 
ticulières qui relèvent d’une méthodologie propre. À cette fin, et comme 
il à été indiqué en note de bas de page dans la section 11.3.1, on préfère 
parler de modèle logit lorsque la ou les variables explicatives sont toutes 
catégorielles. 


Pour approfondir le sujet de la régression avec réponse binaire on pourra 
consulter les ouvrages : Droesbeke, Lejeune et Saporta (2004) ou, en anglais, 
Agresti (2002) et Chap (1998). 


314 Statistique — La théorie et ses applications 


11.4 La régression non paramétrique 


11.4.1 Introduction 


Nous nous situons ici, comme en section 8.5, dans le cadre de l’estimation 
fonctionnelle : la fonction de régression g(x) est totalement inconnue et est 
l’objet même à estimer. Une telle approche peut se révéler utile si l’on n’a pas 
d’idée précise sur une forme fonctionnelle adéquate ou si la forme de la fonction 
est complexe et se prête mal à une modélisation par une forme paramétrique 
simple. 


Un avantage de la régression non paramétrique est de fournir une procédure 
automatique d'ajustement quel que soit le type de données. Elle est à classer 
parmi les méthodes dites adaptatives. On peut voir comme un inconvénient le 
fait qu’elle ne livre pas un modèle sous forme de formule facilement réutilisable 
pour la prévision, mais donne uniquement une description point par point de 
la fonction. Toutefois on pourra concevoir la procédure comme une première 
étape, sans aucune restriction, pour orienter ensuite la recherche d’une forme 
paramétrique adaptée. 


Nous présenterons la méthode des noyaux qui, plus que toute autre, est une 
approche très intuitive du problème et qui sera en cohérence avec l’estimation 
de densité ou de fonction de répartition exposée en section 8.5. Par ailleurs 
la régression polynomiale locale, plus performante, que l’on étudiera en fin de 
section, en est un prolongement naturel. 


Les méthodes usuelles ne concernent que les phénomènes où la variable 
réponse varie en moyenne de façon lisse en fonction de la variable 
explicative. De fait on fera l’hypothèse que la fonction de régression g(x) est 
dérivable au moins à l’ordre 2. Comme pour les modèles paramétriques de ce 
chapitre on supposera que la variance conditionnelle de la variable Y sachant 
X = x est indépendante de x et égale à o?. 


11.4.2 Définition des estimateurs à noyaux 


Les estimateurs à noyaux de régression (en anglais : kernel estimators) ont 
été introduits simultanément par Nadaraya (1964) et Watson (1964) qui se 
sont inspirés des développements accomplis dans le domaine de l’estimation de 
densité. [ls reposent sur une idée très intuitive proche de celle, plus ancienne, 
de moyenne mobile. Pour estimer g(x), où x est un niveau donné de la variable 
explicative, à partir des réalisations (x1,y1),(x2,y2),...,(Æn, Un), on prend la 
moyenne des valeurs des y; pour l’ensemble des observations dont les niveaux 
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sont situés dans un voisinage (ou fenêtre) [x — h,x + h] autour de x, soit® : 


>» Ta-h,r+n](i) 
Yn(x) = — 
den (ti) 
i=1 


OÙ Ly_h,r+n(ti) est égal à 1 si x; € [r — h,x + h] et 0 sinon. En introduisant 
le noyau de Rosenblatt (voir section 8.5.2) : K{(u) = 1/2 si —1 < u < 1 et 0 
sinon, on peut écrire : 


Du K() 
ne) = = —. 
DR) 


Cette forme se prête à la généralisation à un noyau quelconque K introduisant 
une moyenne pondérée des y;. Rappelons qu’une fonction K est un noyau si 
elle est paire et si son intégration sur R donne 1. Dans le cas de la densité qui 
reste positive ou nulle on a imposé également que K ne soit pas négative. Cette 
condition est moins cruciale dans le cas de la régression (les moyennes mobiles 
utilisées pour le lissage des séries chronologiques comprennent d’ailleurs des 
coefficients négatifs afin de réduire le biais). Les propriétés de continuité et 
dérivabilité se transférant à la fonction estimée on aura avantage, comme pour 
la densité, à choisir un noyau de type biweight, par exemple, qui soit dérivable 
aux bornes du support. 


11.4.3 Biais et variance 
Comme en régression linéaire nous distinguerons deux cas, selon que les x; 


sont déterminés par un plan d’expérience ou qu’ils sont réalisations de variables 
aléatoires X;. 


Cas des x; fixés 


L’estimateur g,(x) en un point x donné étant une fonction linéaire des Y5, 
le biais et la variance se calculent aisément. Posant w; = K(®#) on a : 


8La plupart des propriétés que nous expliciterons sont de nature asymptotique. C’est pour- 
quoi nous indiçons l’estimation ÿn(x) par n comme pour la densité. De plus nous utiliserons 
la même notation pour estimation et estimateur. 
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Pour fixer les idées prenons le cas de valeurs x; espacées régulièrement sur 
l'intervalle d'intérêt [a,b]. Si n est assez grand on peut approcher la somme 
finie par une intégrale pour obtenir (voir Gasser et Müller, 1984) : 


Ces formules sont très semblables à celles de la densité et conduisent aux 
mêmes conditions nécessaires pour la convergence en moyenne quadratique, 
à savoir n — ©, h — 0, nh — co. Pour préciser le comportement du biais 
prenons le développement de Taylor : 


ge +uh) = g(a) + uhg/ (a) + S(uh}°g"(æ) + OÙ) 
d’où : 


EG) — gta) = d'a) | K(adu + OU) + 0) 


À partir de ces formules asymptotiques il est possible d'étudier la vitesse de 
convergence de l’e.q.m. pour la valeur de h optimale en x fixé. Les développe- 
ments sont analogues à ceux de la densité et l’on trouve également une vitesse 
optimale de l’ordre de n74/5 avec h de l’ordre de n71/5. 


Toutefois ces formules ne sont valables que si la fenêtre [x — h,x + À] est 
intégralement contenue dans l'intervalle [a, b]. Si, par exemple, x — h < a avec 
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æ—qh = a où 0 < q < 1, le terme uhg'(x) du développement de Taylor fournit 
un premier terme de biais hg'(x) fe K{(u)du généralement non nul. Supposons 
que la fonction de régression g soit pratiquement linéaire au voisinage de x. Si 
la fenêtre est à l’intérieur de [a, b] le biais est nul par compensation de part et 
d’autre de x, mais si x — h < a la partie gauche de la fenêtre contient moins de 
points ce qui introduit le biais. 


Notons aussi que si g admet un extremum en x alors le biais est du signe de 
g''(x) ce qui entraîne un phénomène d’écrêtement déjà rencontré pour l’estima- 
tion de densité. Ici aussi l’on peut introduire des noyaux d’ordre 4 contenant 
nécessairement une plage négative (voir les remarques diverses en fin de section 
8.5.2) pour remédier à ce problème. C’est d’ailleurs pour cette même raison que 
les moyennes mobiles utilisent des poids négatifs sur les extrémités. 


Cas des X; aléatoires 


On supposera que la densité conjointe fx du couple (X,Y) est conti- 
nue dans R?. On peut alors montrer que ÿ,(x) converge en probabilité vers 
g(x) en tout point x tel que fx(x) Æ 0. Collomb (1977) a établi les formules 
asymptotiques du biais et de la variance suivantes (sous certaines conditions 
de régularité de fx, et de K) : 


ae + Dd"(e) + o(h?) 


GG) = De JL Ofdu +06). 


EGn(e)) —g(e) = | 


—1 


u2K(u)du Lo 


Ces formules d’approximation asymptotique restent très théoriques car en pra- 
tique les valeurs de À convenables sont loin d’être faibles même avec des grands 
échantillons. De plus, elles n’intègrent pas les effets de bord. Néanmoins elles 
reflètent bien les écueils des estimateurs à noyaux. Dans le cas où X suit une loi 
continue uniforme sur [a, b] on retrouve les formules et les problèmes précédents. 
Si la loi de X n’est pas uniforme il s’introduit un terme de biais supplémentaire 


he u?K(u)du .g'(x) Ê— même si g est linéaire, dû au gradient de densité 
autour de x mis en évidence par f, (x), lequel déséquilibre la symétrie. 


La régression par noyau présente, nous venons de le voir, des inconvénients 
majeurs : effets de bord (importants vu les largeurs de fenêtre nécessaires à un 
lissage satisfaisant), écrêtement des extrema, présence de biais même pour une 
fonction de régression linéaire si la densité de X n’est pas uniforme ou, dans 
le cas d’un plan d’expérience, si la répartition des x; n’est pas régulière. La 
méthode qui suit va y remédier. 
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11.4.4 La régression polynomiale locale 


Cette méthode (RPL) est une généralisation de la méthode Local Weighted 
Regression où LOWESS de Cleveland (1979) proposée par Lejeune® (1983) dans 
le cadre de l’estimation par noyau. Elle consiste, pour estimer g(x), à ajuster 
une fonction polynomiale de degré s choisi, sur les couples de points (x;, y;) dont 
les x; sont situés dans le voisinage (fenêtre) [x — h,x + h] de x. L’ajustement 
s’entend au sens classique des moindres carrés des résidus y; — ÿ; (voir section 
11.2) et est donc un cas particulier de régression linéaire multiple, la fonction 
polynomiale étant linéaire par rapport aux paramètres inconnus. Il se 
résout matriciellement comme indiqué en section 11.2.7. Alors g(x) est estimé 
par la valeur ajustée au point x que nous noterons g, (x). 


Soit P(u) = ao +au+::-+asu° un polynôme de degré s. Cet ajustement 
s'opère avec les valeurs de ao, a1,...,a, telles que l’expression : 


LT — ZT; 


= 


>. [ui — (ao + aux ++. + a,x$)] K( 
i=1 


soit minimale, où X est la fonction indicatrice de l’appartenance de la valeur 
x; à la fenêtre (K{u) = 1 si [u] < 1, 0 sinon). Soit &o,@1,...,@, les valeurs 
permettant d'atteindre le minimum, g(x) est alors estimé par g:(x) = &@o + 
dit +: +AStxS. 


Comme pour l’estimateur à noyau les propriétés de la fonction K se trans- 
fèrent à la fonction g, et l’on aura avantage à substituer à la fonction indicatrice 
une fonction de pondération dérivable partout, ce qui conduit à une solution 
des moindres carrés pondérés. On montre aisément que la solution matricielle 
de la section 11.2.7 pour le vecteur des paramètres devient (X'WX)_"X'WY 
où W est la n x n—matrice diagonale des poids K(#%) affectés aux n ob- 
servations. On pourra choisir pour K le noyau le plus simple possédant les 
qualités requises, à savoir le biweïight de Tukey. Notons d’ailleurs que l’esti- 
mation par noyau correspond au cas particulier s = 0, car la valeur de ao qui 
minimise ÿ 2; [ui — ao] K( #4) est la moyenne pondérée des y; avec les poids 
K(EE). 


Intuitivement on peut voir les avantages de la méthode pour autant que s 
soit supérieur à 0. En effet on perçoit bien qu'avec un simple ajustement local 
linéaire (s — 1) on doit pouvoir prendre en compte les problèmes résultant du 
différentiel de densité de points de part et d’autre de la valeur x, en particulier le 
problème des effets de bord. De même, mais avec s = 2, il est possible d’obtenir 
un meilleur ajustement pour les zones à forte courbure, notamment en ce qui 
concerne le problème de l’écrêtement des extrema. Nous allons vérifier cela sur 
les propriétés de la RPL. 


9A l’origine la méthode a été également appelée «régression polynomiale mobile» par 
référence à la moyenne mobile analogue dans son esprit à l’estimateur à noyau. 
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Cas des 7; fixés 


On démontre (voir Lejeune, 1984, 1985) que la RPL au degré s : 


1. produit, en tout x fixé, un biais en O(h°*1) quelle que soit la répartition 
des x; et quelle que soit la fonction de poids utilisée, 


2. est, avec des pondérations uniformes et pour une largeur de fenêtre fixée, 
l’estimateur de variance minimale de g(x) parmi les estimateurs linéaires 
(en fonction des Y;) dont le biais est en O(h°T1). 


La première propriété montre le caractère adaptatif de la RPL pour ce 
qui concerne le problème du biais. Quant à l’optimalité exprimée dans la se- 
conde propriété elle doit être quelque peu sacrifiée si l’on veut bénéficier de la 
dérivabilité de la fonction g,. Toutefois l’incidence est faible car la fonction de 
poids n’influe pas de façon très sensible sur la variance. 


Cas des X; aléatoires 


Le biais et la variance asymptotiques ont été établis par Fan (1993). En fait 
la variance ne dépend pas du degré de la RPL et reste égale à celle indiquée 
plus haut pour l’estimateur à noyau correspondant au cas s = 0. Pour le biais 
on obtient pour s > 1: 


hs+1 


EGN(e) — g(e) = et) L 1 K(udu + oh), 


Par rapport à l’estimateur à noyau classique on constate qu'avec s = 1 le 
terme dû au gradient de densité autour de x (mis en évidence par le facteur 


g'(x)fx(æ)/fx(x)) disparaît. 


En pratique le choix s = 1, proposé à l’origine par Cleveland et repris par 
divers auteurs, n’est cependant pas satisfaisant car il ne traite pas le problème 
de l’écrêtement des extrema (ou, plus généralement, du biais dans les zones 
à forte courbure). Pour cela on peut considérer qu’un ajustement parabolique 
(s = 2) suffira, d'autant qu’à n fini la variance augmente avec l’ordre du biais. 
La figure 11.3 illustre la bonne qualité d’un tel ajustement. Notons que la 
RPL n’évite pas le problème du choix de la largeur de fenêtre. Néanmoins on 
constate que l'estimation de g(x) est moins sensible à ce paramètre qu'avec un 
estimateur à noyau. 


Pour approfondir la régression non paramétrique on pourra consulter les 
ouvrages de Haerdle (1990) et de Simonoff (1996). 
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—— MODELE Y = SINC2nX) 
—— ESTIMATION par RPM 


Figure 11.3 - Estimation par régression polynomiale locale de degré 2 avec 
pondérations biweight et k = 0,4 : échantillon de 100 observations simulées 
par un modèle sinusoïdal à erreurs N(0 ;4) avec abcisses [0,1]. Reproduction 
autorisée de la Revue de Statistique Appliquée, vol. XXXTII, n°3, page 62, 1985. 


11.5 Exercices 


Exercice 11.1 Soit (X,Ÿ) un couple aléatoire gaussien de paramètres 4x, Huy, 
En Ci et D. 

Partant de l’expression matricielle générale de la section 3.9 développer l’ex- 
pression analytique de la densité conjointe du couple. 
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Montrer que la loi conditionnelle de Y sachant X — x est gaussienne de 
moyenne ay + p%{(x— x) et de variance oÿ(1 — p°). 


Aide : on utilisera le résultat de la section 3.2 pour la densité conditionnelle : 


frix=2 (y) = __— 


Exercice 11.2 * Soit (X,Y) un couple aléatoire non nécessairement gaussien 
de moyennes, variances et corrélation linéaire ux, dy, o%, 0% et p. Montrer 
que si E(Y|X = x) est une fonction linéaire de x alors cette fonction est 
uy + pr (x — ux). 

Aide : Soit w(x) = E(YIX = x). Calculer E(y(X)) d’une part de façon 
générale en passant par la formule pour la densité conditionnelle : 

Jx,v (x, y) 
E(YIX = x) y fx (a) d 

et d’autre part par l'expression linéaire E(Y}X = x) = fo + 1x pour obtenir 
une première équation en Bo et (1, puis calculer de même E(Xv(X)) pour 
obtenir une deuxième équation. 


Montrer que si, de plus, la variance conditionnelle V(Y|X = x) ne dépend pas 
de x alors elle est égale à o£(1 — p?). 

Aide : Soit (x) = V(Y|X = x). Calculer E(Y(X)) d’une part en décentrant 
V(YIX = x) et d’autre part en tenant compte de la propriété sur V(Y|X = x). 


Exercice 11.3 Démontrer la formule de décomposition de la somme des carrés 
totale pour la régression linéaire simple. 

Aide : partir de y; — 7 = (y; — %) + (Yi — ÿ) et montrer, en remplaçant %; 
par + Bai —T), que 752, (yi — %)( — 7) = 0. 


Exercice 11.4 (intervalle de prédiction) Dans le cadre de la régression linéaire 
gaussienne simple on cherche à prévoir une observation Y, pour le niveau xp 
de la variable explicative. 

Montrer que el _ (Bo + Bio) suit une loi de Gauss de moyenne 0 et de va- 


(xo—T) 


riance © Ur EE EE) (aide : Y, est indépendante des Y; sur lesquels 


reposent B et EN 
En déduire que : 


AR. ! Set) _1 (co-7)° 
P | Bo + Bito — (6,975 5 1] 1 + cts DEN CEE < Yo < 


3 3 n— 1 To —T 
Bo + Bito + Sos S Vi Has ne.) = 0,95. 


Les réalisations des bornes d’encadrement de Y5 (qui sont aléatoires) consti- 
tuent un «intervalle de prédiction à 95%» pour Yo. 


322 Statistique — La théorie et ses applications 


Exercice 11.5 * Démontrer le théorème 11.1 pour B (cet exercice nécessite 
la connaissance de la méthode du multiplicateur de Lagrange). 


Aide : établir les deux contraintes sur les a; pour qu’un estimateur de la 
forme di a;Y; soit sans biais pour 1. Puis minimiser la variance d’un tel 
estimateur sous ces contraintes. 


Exercice 11.6 Pour la régression simple, déterminer la statistique À du test 
du rapport de vraisemblance généralisé pour l'hypothèse H5 : 61 = 0 et montrer 
que c’est une fonction décroissante de la statistique F. 
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Chapitre 1 : Variables aléatoires 


Exercice 1.1 


Clairement, on a (avec la convention A5 = {)) : 


Ü 4j = An= Ü(AjN A1) 
j=1 j=1 

et : 
À An = Ü (ANA 1). 


n=1l n=1l 
La suite { A, N 4,_:} étant une suite d'événements incompatibles, on a : 


P(Ü Ah) = S P(AnN An_1) 


n=1 


j=1 


= lim P (ua nA;-1) 
I—= 


700 


lim P(4,). 


N— 00 


Note : Soit X une v.a. de fonction de répartition Fx, montrons que 
P(X < x) = Fx(x-). Considérons l'événement An =] — 00,7 — 1] - soit, 


OO 
avec la convention de notation usuelle (X < x — 1). Comme J An =] — 0, x, 
n= 


ona:P(X <x)= lim P(X <x—1)= lim Fx(x— À). Or, en raison de la 


non-décroissance de Fx, lim Fx(x— 1) = lim Fx (x —Ee) = Fx(x). 
n— 00 E— 


Exercice 1.2 


Utilisons le fait que {B,} est une suite croissante. On a : 
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Note : Dans le même contexte d'application que celui de la note précédente, 


prenons Ba =]-00,x+1]. On a ainsi lim P(B,) = lim Fx(x+1) = Fx(xt). 
Comme À, Bn —|-0, x] il découle du résultat précédent que Fx(x*) = Fx(x), 


ce qui établit la continuité à droite de la fonction de répartition. 


Exercice 1.3 


Considérons la suite croissante d’événéments {4,} avec A, =] — œ,n|]. 


CO 
Comme U An = R, on a: 
A 


P( Ü 4) =1= lim P(4,) = lim Fy(n). 


En raison de la non décroissance de Fx, on a lim Fx(n) = lim Fx(x) — 
Fx(+00) =\1; 
De même avec A, =] — n,+æl|, on a P( U An) = 1 = lim P(A,) = 


lim [1 — Fx(-n)], d'où lim [Fx(-n)] = 0 soit Fx(—oo) = 


Exercice 1.4 


Considérons la suite décroissante d’événéments {B,,} avec B, =]r — À, x]. 


n°? 


Notons que pour tout n, B, est un bien événement puisque : 


OO 

Or 0 Ba — {x}, événement dont la probabilité se note conventionnellement 
à Ft 

P(X = x). D'où, d’après le résultat de l'exercice 1.2 : 


1 
P(X = x) = lim P(B,) = lim P(x--<X<7#x) 
n—0o n 


n— 00 


et. LE) — Exe - 2] 


n— 0O 


mm 3 


Il 


Pre) = in, [Fee D] = Pete) - Fr) 


Note : Dans la note de l'exercice 1.1, on a établi que P(X < x) = Fx(x°). 
Comme (X < x) = (X < x)U(X = x) le résultat ci-dessus est alors immédiat. 
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Exercice 1.5 


La fonction de probabilité px de X est définie sur N* — {1,2,3,--.}. 


2 — 
px(1) = 5, px(2) = 2, px(3) = (5) à et plus généralement : 


EN 
px(k) = () g Pour ke N°. 


: 2 
On a bien : DuenPx(E) = 4 [1+8+(8)/+]=4 [25] =1 
PA<X<3)=px(2)+ px(3) = 86 + 0 


Pour k € N° on a : 


P(X > k) = he 


Donc Fx(k) = 1 - oi et plus généralement : 


0 pour x <1 
Fx(x) = 5% 
1—($) pourrefk,k+1l 
Son graphe est une fonction en escalier avec sauts des marches aux valeurs 
1,2,3,---. 11 y a continuité à droite (voir figure 1.1). 


Note : Il s’agit d’une variante de la loi géométrique (section 4.1.4) 


Exercice 1.6 


On doit avoir d’abord f(x) > 0 pour x € [0, 1] soit c > 0 puisque x(1—x) > 0 
sur [0,1]. Puis : 


L 1 2 311 1 
| c(i- sde = e | (x — x) dx = c Lu FE = € 
0 0 2 3 lo 6 


doit être égal à 1. D’où c — 6. La fonction de répartition vaut, pour x € [0, 1] : 


6 Jo (x — 1?2)dx—6 Ë — |. Plus généralement : 


0 pour x <0 
2 


F(x) = 6 -+ pour x € [0,1] 


1 pourz>l 
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On vérifie que Fest continue partout. La médiane est la valeur de x telle 
que F(x) = 3. L’équation n’est pas simple à résoudre mais l’on peut constater 
que le graphe de f(x) est symétrique par rapport à x — à qui est donc la 
médiane (et la moyenne). 


Note : Il s’agit de la loi bêta Beta(1, 1) (section 4.2.9). 


Exercice 1.7 


La fonction F(x) est non décroissante, elle part de 0 et tend vers 1 quand 
x tend vers +oo. Comme elle est continue partout, elle caractérise une v.a. 
continue. Elle est strictement croissante sur le support [0, + de la loi et les 
quantiles sont donc uniques. Le premier quartile %0,25 vérifie 1—e7 rie 0,25, 
d’où %0,25 = —21n(1—0,25) + 0,575. De même 0,75 = —21n(1—0,75) & 2,77. 


1 


P(<X<2)=F(2)-F(1)=e-?—e? 0,239. 


Note : Il s’agit de la loi exponentielle £(4) (section 4.2.2). 


Exercice 1.8 


Posons Y = 1/X. Au support [0,1] de X correspond le support [1, + de 
Y. Alors, pour y € [1,+co, on a : 


1 1 
Fr) = PY <y)= PC <y)=P(X 2 in 
Or, pour t € [0,1], Fx(t) = 1: Pad =, D'où : 
0 pour y<1 
Fy (4) = ne 
AR pour y>1 


On vérifie la continuité de Fy au point y = 1. 
Posons Z = In(1/X). Au support [0, 1] de X correspond le support [0, +oo! 
de Z. Alors, pour 2 € [0,+æl|, on a : 


Ft=pre)e P{n(=) ee 


0 pour z < 0 
F = E : 
z() { 1—e-?7 pour z >0 
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On vérifie la continuité de F7 au point z = 0. Il s’agit de la loi exponentielle 
€(2) (section 4.2.2). 


Exercice 1.9 


Sur [0,1] on a Fx(x) = x. Au support [0,1] de X correspond le support 
[0, +oo[ de Y. Alors, pour y € [0,+æl|, on a : 
Fy(y) = P(Y < y) = P(-8n(1 - X) < y) = P(ln(1 - X) > 4) 
Fy(y) = P(X <1-—e-6)=1-e"é. 
Pour y < 0 Fy(y) vaut 0. On vérifie la continuité de Fy au point y = 0. 
Note : Il s’agit de la loi exponentielle £(4) (section 4.2.2). La transformation 
de nombres au hasard par la fonction —0In(1 — x) permet donc de simuler des 


observations d’une loi exponentielle £(4) (voir section 4.3). 
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Chapitre 2 : Espérance mathématique 


et moments 


Exercice 2.1 


E(Y) = (02 —1) x0,7+ (12 —1) x 0,2+ (22 — 1) x 0,1 = —0,4. 


Exercice 2.2 


Suivons la méthode de la section 1.6. 


F(2) = P(Z < 2) = P(g(X) < 2). 


Comme g est croissante, l’événement (g(X) < z) est identique à l'événement 
(X < g7{(2)), donc : 


Fz(2) = P(X < g7"(2)) = Fx(g7"(2)). 
Par dérivation, on obtient : 
f2(2) = F0) = FX" (2) "(2)" = fx (97) (2) 


ce qui peut s’écrire, puisque g” ! est également croissante et (g- 1)’ est positive : 
Fz(e) = fx(g "(2)" (2). 
Si g est décroissante, l'événement (g(X) < z) est identique à (X > g_!(2)), 
donc : 
Fz(e) = P(X 2 g7 (2) =1- Fx(g (2). 


Par dérivation, fZ(2) = F,(2) = —FX(97"(2))(97" (2) = —fx (97 (2) (97 (2). 
Comme g”! est décroissante, (g-!)/ est négative et fz(2) = fx(g-!(2))|(9-!(2))| 


également. 


Soit maintenant g strictement croissante, variant de a à b quand x croît de 


—00 à +oo (où a et b peuvent, respectivement, être —oo ou +). Alors : 


b 
E(2) = | 2 fx (97 (2))(g7 1 (2))'dz. 
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Effectuons le changement de variable æ = g-l(2) avec dx = (g-!(z))'dz et 
z = g(x), d’où immédiatement : 
+00 
E(2)= [at fx(o) dr. 


— OO 


Soit g strictement décroissante. Supposons que g(x) décroît de b à a (a < b) 
quand x croît de —oo à +oo (où a et b peuvent, respectivement, être —œ ou 
+oo). Alors : 


b 
E(Z) = . 2 fx (97 (2))(g (2) de 


et par le changement de variable x = g-1(z) on obtient : 


BA = [ot fat = [ge fxtdr. 


+00 +0 


Exercice 2.3 
Soit X de densité f(x), alors : 


+00 1 
vo =E(e*)= | don dx 


Il 
D) 
Es A 
8 
se 
8 
[ 
® 
8 
Sn 
à 
+ 
S— 
+ 
8 
SUR 
8 
[ 
aœ 
8 
Q 
8 


1 0 NÉ +00 

2 (t+1)z (t—1)x 
2(t+1) Ê re Ê ik 

= ET È — Jim ere] + 


lim et-1z 27 


(+1 ue 


La première limite est 0 si t+1 > 1, soit t > —1, et la deuxième est 0 si t < 1. 
Donc Y(t) est définie au voisinage de 0 et : 
1 1 (—1)-(#6+1) 1 


Sep 2-0 ag ce Piles 


En développant Y(t) en série entière (voir Note 2.3) : 


Y(t)=1+82+#+.., 
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on accède directement aux moments, d’où : ga = 2! = 2, 4 = 4! = 24. Ce sont 


aussi les moments centrés, donc le coefficient d’aplatissement vaut : 


ce qui indique un pic plus pointu en la moyenne que pour la loi de Gauss. 


Exercice 2.4 


On à : x e 
% Q fa or ani! 
EX) = | (©) dx = 0a Î 2 dx. 


L'intégrale ci-dessus ne convergeant que si 0 > 1, la moyenne n'existe qu’à cette 
condition et vaut alors : 


. 2-0+1 +00 
E(X) = 0 
ee [Es], 
—0+1 
mr a 
“i + El 


Puis : 


+  _ g 0+1 + 7 


L'intégrale ci-dessus ne convergeant que si 0 > 2, E(X?) et la variance n’existent 


qu’à cette condition. Alors : 


27 0+2 +00 
E(X?) = 0a° ËÉ — ; 
a +2 0a? 
Li | 8-2 
Ainsi : 
2 2 Oa? CEA 
VON = EG) EC = 35 - Gp 
_ 0a?(8—1)? —6?2a°(8 —2)  8a?[0? — 20 +1 — 8(8 — 2) 
7. 6-236-1ÿ CEP]CENE 


U Oa? 
_ (8—2)(0 —1)2 
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Généralisons à u, — E(X") avec r > 2, r entier : 


+ à 0+1 +0 1 
a a T 


& \T 


L'intégrale ne converge que si 4 — r +1 > 1, soit 0 > r. Notons qu'il en va de 
même pour pu, = E((X — u)") qui s'exprime en fonction de 4, y_1,--:,j2, lu. 
Or si y, existe, les moments d’ordres inférieurs existent. Pour 4 > r on a donc : 


—0+r 1 T2 —0+7r 
E(X") = 6° | * = bof |© 
Ge ÿ — h — 


Oa” 


a 


La condition 0 > r laisse entendre que la fonction génératrice — permettant 


pour 6 fixé d'obtenir tous les moments — ne peut exister, ce que nous vérifions 


+1 +oo tx 

a e 

— dx = Oa° —— dx. 
(5) x0+1 


a 


directement en calculant : 
Y(t) = E(e*) = [l Éd 


. . LEA . . 2 

Or, quel que soit 4 € KR, lim son — +00 sit > 0 et l'intégrale ne peut 
LT— +OO 

converger. Donc Y n’est définie dans aucun voisinage de 0, condition nécessaire 


[7 


pour la définition de la fonction génératrice des moments afin que Y’(0),% (0), 
etc., puissent exister. 


Exercice 2.5 


L 


1 a à x? 3 
E(—) = = 3x? d — d = — = +, 
() IE œ 3 | vdr 3€] 5 


2. X prend ses valeurs sur [0,1] donc Y — + prend ses valeurs sur [1,+oœl. 
Ainsi Fy(y) = 0 si y < 1. Soit y > 1, alors : 


1 
Fy (y) = PC £ y) 
1 1 a 
= P(- <X) car — > 0et X ne prend que des valeurs positives, 
y y 
1 
=1-Fx(-) 


La 
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Or : . 
Fx(x) - | 3 dt=x pourz€e[0,1], 
0 
donc : : 
Fy(y) =1- — poury2Zl (et 0 sinon). 
y 


On vérifie que la continuité est assurée pour y = 1 car l’expression ci-dessus 
vaut 0 pour y = 1. Par dérivation on a : 


3 
fr (y) = y pour y > 1 (et O0 sinon), 


d’où : 


+00 3 +0 
E(Y = f (5) à =3/ —_ d 
1 4 de è 1 y} # 
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Chapitre 3 : Couples et n-uplets 


de variables aléatoires 


Exercice 3.1 


1 x 0,35 +2 x 0,45 + 3 x 0,20 — 1,85 
1 x 0,48 +2 x 0,33 +3 x 0,19 — 1,71 

E(X?) = 1? * 0,35 +2? x 0,45 + 3? x 0,20 = 3,95 
1 
3 


2 x 0,48 +22 x 0,33 + 32 x 0,19 = 3,51 
VX) =3,95—(1,85)?=0,5275 V(Y)=3,51— (1,71)? = 0,5859 


et finalement : 
0, 1665 
4/0, 5275 x 0, 5859 


corr(X, Y) = = 0,2995. 


Exercice 3.2 


Soit X et Y les deux variables aléatoires. On a, quelles qu’elles soient : 


cou(X + Y,X —Y) = cou(X +Y,X) — cou(X +Y,Y) 
cou(X, X) + cov(Y, X) — cou(X,Y) — cou(Y,Y) 


V(X) - V(T). 


Il suffit que les deux variables soient de même loi pour que la covariance soit 
nulle. L'indépendance n’est pas nécessaire. 


Exercice 3.3 


L'événement (X + Y — 0) équivaut à (X — 0, Y — 0) — c’est-à-dire 
(X = 0)N(Y = 0) — dont, par l'indépendance, la probabilité vaut (1—p)(1—p). 
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De même (X +Y = 0) équivaut à : (X = 0,Y = 1) ou (X = 1,Y = 0) soit une 
probabilité totale de 2 x p(1 — p), etc. 
valeurs possibles 0 1 2 


La loi de X +Y est définie par : 
“ avec probabilités (1—p)? 2p(1—p) p? 


On établit de la même façon la loi de X — Y : 


valeurs possibles -1 0 1 
avec probabilités p(l—p) p?+(1—p}? p(l—-p) 


L'événement (X + Y = 0, X — Y = 0) ne se réalise que si et seulement si 
(X = 0,Y = 0) (puisque le système des deux équations x + y = 0 et x —y=0 


m'a qu’une seule solution : x — 0 et y — 0). Par conséquent : 


P(X+Y=0,X-Y =0)=P(X =0,Y =0)= (1-2), 


alors que P(X+Y =0)P(X-—Y = 0) = (1-p}?[p?+(1-p)?], ce qui est différent 
dans les cas non dégénérés (ï.e. p £ 0 et p £ 1). On en déduit donc que X +Y 
et X —Y ne sont pas deux v.a. indépendantes. Toutefois cou(X +Y, X —Y)—0 
comme il a été montré dans l'exercice 3.2 ci-dessus, ce qui illustre le fait qu’une 
corrélation linéaire nulle n’implique pas nécessairement l’indépendance. 


Exercice 3.4 


Calculons P(Z < 2|X = x). 


P(Z <2IX =x) = P(X+Y <2]X =x) = P(x +Y <2|X = x) 
= PY <z-—x|X =x) 
= P(Y <z-—x) car X et Y sont indépendantes. 


Donc Fyx=2(2) = Fy(z— x) et, en dérivant par rapport à 2, fz\x=2(7) = 
fr x). 


On a montré en fin de section 3.2 que : 


fzIx=x (2) — PRE) ) 


fx(x) 
d’où : 


fx,z(x, 2) = fr(z-x)fx(x) 
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et (voir aussi section 3.2) : 
+00 +0 
fae)= | fxzteodr= | fr x)fx(x) dx. 
Notons que par le changement de variable y = 2 — x cette densité s’écrit 
également [TT fr (y) fx (2 — y) dy 


Pour T = X — Y on se ramène au cas précédent en posant U = —Y, d’où 
T' = X +U. La loi de U est donnée par : 


Fy(y) = P(U < y) = P(-Y <y)=P(-y<Y)=1-Fy;(-y), 


d'où fu(y) = fy(-—-y). En appliquant la formule plus haut, on obtient : 
+00 +0 
FO = | food [7 hte-Dfxtode, 


ce qui s'écrit encore, par changement de variable y = x — 1 : 
+ 
Le FU) fx (+ y) dy. 


Exercice 3.5 


Comme fx(x) = 1 pour 0 < x < Let fy(y) = 1 pour 0 < y < 1, par 
l'indépendance on à fx,y(x,y) = 1 dans le carré du plan {(x,y)|0 < x < 1, 
0 < y < 1} et 0 ailleurs. Aïnsi la probabilité de toute région à l’intérieur 
du carré est égale à son aire. Posons Z = X + Y et calculons sa fonction de 
répartition P(Z < 2). On voit sur la figure 3.1 qu'il faut distinguer le cas z < 1 
du cas z > 1. 


1) Pour z € [0,1] 

L'événement (X + Y < 2) correspond alors aux réalisations (x, y) du couple 
(X,Ÿ) appartenant au domaine À indiqué sur la figure. Son aire étant égale à 
2yrona PES 2e oabeee l 

2) Pour z € {1,2] 

L'événement (X + Y < 2) correspond alors aux réalisations (x,y) du couple 


(X,Ÿ) appartenant au carré, à l'exclusion du domaine B indiqué sur la figure 
dont l’aire est (2 — z)?/2. D'où P(Z < z) =1—(2-—2)?/2 si 1 < z < 2. Donc: 


0 si z < 0 

242 si0<z<1 
F 2) = ENT 
+" (2 — :)2/2 sil<z<2 


1 si2 <Z 
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On vérifie qu’il y a continuité entre les différents morceaux de la fonction de 
répartition. 


Dérivons pour décrire la densité : 


z si 0<z<1 
fx+v (2) = 2—3 s1<z<2 
0 sinon 


dont le graphe fait apparaître un triangle dont la base est le segment [0, 2] sur 
l’axe des abcisses. Cette loi est naturellement appelée loi triangulaire. 


Note : Pour le calcul de la densité on aurait pu appliquer directement le résultat 
de l’exercice 3.4 mais en étant attentif aux bornes de l'intégrale. En premier 
lieu > fre x)fx(x) dx se ramène à [7 fx(x) dx puisque fy(2-—x) =1 
quand 0 < z2—x < 1, soit z—1 < x < z. Pour calculer cette dernière intégrale, 
il faut distinguer le cas 0 < z < 1 où elle vaut is 1dx = 2, et le cas 1 < z < 2 
où elle vaut fs 1dx =2— 2. 


Exercice 3.6 


La surface étant XY, on à E(XY) = E(X)E(Y) = pxuy (voir la proposi- 
tion 3.7). 

De plus, V(XY) = E((XY)?) — [E(XY)L. Or E((XY)?) = E(X2Y?) = 
E(X?)E(Y?). En effet, comme X et Y sont indépendantes, X? et Y? le sont 
aussi (proposition 3.4). Puisque E(X?) = 0% +u% et E(Y?) = a? + jé, on 
a : 

V(XY) = (o% + nX)(o$ + u$) — (uxuy)? = a%o$ + HR oÿ$ + 0%. 


Exercice 3.7 


La v.a. X ayant pour fonction de probabilité : 
. p sit =1l 
na) = À lp Bray 
on à : 
E(X)=p+(-1)(1 —p) = 2p -1 
E(X?) = L'p+(-1)(1-p) =1 
V(X) = E(X?) — [E(X)È = 1 — (2p — 19° = 4p(1 — p). 


Corrigés des exercices 339 


Soit maintenant n étapes successives de déplacements X1, X2,---,X,, ces 
v.a. étant indépendantes et chacune suivant la loi ci-dessus. La position résultante 
2 nm 
étant Y =); X;,ona: 


De toute évidence, si p > 1/2 alors E(Y) > 0 et, inversement, si p < 1/2 
alors E(Y) < 0. 


Exercice 3.8 


Appliquons avec p = 2 la formule générale de la densité gaussienne d’un 


p—vecteur gaussien : ; ï 
RG) Trees) exp { PRES -n} 


La matrice des variances-covariances est : 
L OxO 
ve OX POxXOY 
= : . 
POXOY OY 
LE , $ “ : a b j 
L’inverse d’une 2 x 2—matrice inversible À = d étant : 
c 


—b 
A 1 Ë | où det À — ad — bc, 


: det À —C à 


on a detZ = o%o%(1 — p?) et : 


sie. 1 Ge —POxOY 
o%o8(1—p?) | —o0x0y 0% 


L'expression dans l’exponentielle se réduit ici à À — —2(x,y) 2m Re 
y 
Comme (x, y) É JC) = tam 
c b y 
A = : (aÿ-x° — 2poxoy xy + ox Y°) 
20%0%(1—p°?) 
. 1 ss nu y? 
 2(1-p?2) 04 OxXOY 02 


Par ailleurs, la constante devant l’exponentielle est bien ————+. 
2r(det X)2 
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Chapitre 4 : Les lois de probabilités 


usuelles 


Exercice 4.1 
La marche aléatoire est décrite dans l’exercice 3.7. 


Notons que lorsque X prend respectivement les valeurs 1 et —1, Y — 
SX + 1) prend les valeurs 1 et 0. X prenant la valeur 1 avec probabilité 
p, Ÿ suit une loi de Bernoulli B(p). 


La v.a. de la marche aléatoire après n pas est T'— SE Xi. 


Comme X; = 2Y; — 1, avec Y;  B(p) , on a: 


T=2Y Y-n=25-n 
i=1 
où S = ÿ *_, Y, suit une loi binomiale B(n, p) : 


P(S = k) = (}ra Rs pour k — 0,1,2,--- ,n. 


Comme l'événement (S = k) équivaut à (T = 2k — n) on à, en posant 
t—=2k — n, la loi suivante pour T : 


n+t 


P(T =t) = Gujan pourt=-n,-n+2,... ,n—2,n. 
“2% 


Exercice 4.2 


Soit X qui suit une loi binomiale négative BNW(r,p), d’où (voir section 
4.1.4) : 


r+x—1l 
zx 


P(X =) = ( }r'a pr" pour æ EN. 


Sa fonction génératrice des moments est (section 2.5) : 


Bx(o = E(eX)= Dee (+ ET pp 
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Pour calculer la somme ci-dessus, posons 1 — q = (1 — p)e! et notons qu’en 
vertu de la fonction de probabilité d’une loi BNW(r, q) on a : 


(2 "jeu -0 1 
et : 


PEN 
Notons que ceci est vrai si 0 < 1 — q < 1 et que, de toute façon, les sommes 
ci-dessus sont divergentes si 1—q > 1 puisque (1—q)® — + quand x — +00. 
Il est donc nécessaire que 0 < (1 — pe! < 1 soit 0 < ef < ee ou t < In =. ou 
t<—In(1 —-p) 


Finalement, en revenant à la dernière écriture deYx{t), on a : 


qui est bien l’expression donnée en section 4.1.4. 


Pour obtenir E(X), dérivons par rapport à p chaque terme de légalité : 
LE NE ES à 
D (+27 ra 21 
x 
zEN 
ce qui donne : 
EC ts Reel 1 
T 1 — HA Pr  ÿ 1 — FA — 0 
rE nant Daft jp pe 20 


soit en multipliant par p : 


jure __ r(i=p) 
d'où E(X) = +. | 
On peut évidemment arriver à ce résultat en calculant Y (0) comme indiqué 


en proposition 2.2. 
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Exercice 4.3 
On posera q = 1 — p pour simplifier les écritures. 

Notons que, par interchangeabilité des notions de succès et échec, n—x — 
pour les valeurs d’intérêt de n — x. 

On a : 


n! TL n—xT 
CR æl(n x) £ 


En appliquant la formule de Stirling pour n! , x! et (n — x)! on obtient : 


1 n 120 nenn-s 
P X: — AS T ,N—T 
( " | (na? : 


Ra (ne = (2) Ca) | | 


soit, en posant u = x — np (donc # — 0 puisque ? — p ) : 


P(X = &) = — Ie | D) 6-27 


Le logarithme de l’expression entre parenthèses est égal à : 


—1 


(u + np) (1 + “) + (u = ng) (1 — 2) 
et équivalent à : 


DS rs 


donc : 


P(X 1 u? 1 (x — np}? 
= Tr ex —= ex 
V27Tnpq ; 2npq V27Tnpq ; 2npq 
qui est la fonction de la densité de U en x. 


Montrons maintenant que cette expression est équivalente à : 


1 1 1 Î 
P(x — = p Serre 
(x ; <U<zx+:) u(&+:) u(x 5) 


Par la formule des accroissements finis on a : 


D) Fute 5) = fute+h) 
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où hE (—+,+4) et fu est la fonction de densité de U, donc : 
1 (x +h— np)? 

——— EXP à — —— >}. 

V27npq 2npq 

Mais fu(x +h) = fu(x) car : 


ee en | Slam al 


tend vers 1 quand n — oc, ce qui montre que P(X = x) + P(x — à <U < 


Ju(x +h) — 


8 + 3). Cela constitue une approximation d’une loi binomiale par une loi de 


Gauss quand n est grand (voir section 5.8.3). 


Annexe : 
Justifions sommairement le fait que les valeurs utiles de x tendent vers l’infini 
en recourant à l'inégalité de Tchebichev introduite dans l'exercice 5.9. Selon 
cette inégalité, pour toute v.a. X ayant une variance et pour tout 4 > 0, on a : 
1 
PAIX 4] <ko)21- 


soit, ici, en choisissant k = ,/np : 


1 
P(IX - ae 
(| np| < np/q) > ” 


1 
ee ESS ST 
et donc l’ensemble des valeurs inférieures à np(1 — ,/q), qui tend vers l'infini, 
reçoit une probabilité tendant vers 0. 
HA 


Par ailleurs, le fait que pour les valeurs d’intérêt de x on ait  — p découle 


de la loi des grands nombres (section 5.8.2). 


Exercice 4.4 


Cet exercice demande une démonstration directe de la propriété établie par 
la fonction génératrice en section 4.1.7. 


HA 


n! (np) 


(X = x) HG (1—p) A Up) 
puisque 1 nr n°. En posant np — À (constant quand n — ©), on a 
(1—p}t? = (1- Ajne, lequel tend vers e-* quand n — co, et donc P(X = x) 
tend vers 2? qui est la probabilité de la loi P(A) en x. 
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Exercice 4.5 


Pour cette loi hypergéométrique, on a : 


et notons que N — co et À — p £ 0 implique que M — © et N — M — co. 


En utilisant le fait que ni ns", ou (5) #7, quand s tend vers l'infini et 


ul? 


u est fixé ( s et u entiers positifs), on peut écrire : 


ME(N-M)"® n! 
xl (n—x)! Nr 


CO Cr) 


et, ainsi, P(X = x) tend vers (*)p° (1—p)" *. 


Exercice 4.6 


Calculons : 


P((X1=k)N(X=n—k)) 


FOR en 


es MAFe A2xr Fr " 
CS LL Mo. ef 
CPE (k/ [+] [u+x 


qui est la probabilité pour k de la loi binomiale de paramètres n et 


Exercice 4.7 


Reprenant la définition de la loi G(p), on a : 


P(X>n)= ÿ[ pp} =p(ti-p)tt[1+(1-p)+(1-p) +... 
æ>n+l 
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P(X>n+k)N(X > n)) 


PIX >n+k|X>n) = PX > n) 


P(X >n+k) 
P(X > n) 
(1 — p}r+kH, 


_ A-p Ven 


qui est indépendant de n et égal à P(X > k). Dans la modélisation en temps 


discret d’une durée de vie cela signifie que la probabilité de vivre encore k 


unités de temps au-delà d’un temps donné reste constante. 


Exercice 4.8 


Reprenant la fonction de répartition de la loi {4[0,1] : P(X < u) = u si 
u € [0,1] et vaut 0 si u < 0 ou 1 siu > 1. 


PY <y) = P((b—a)X +a < y) 


y—a 
= P(X < =— 


qui vaut 2 si #2 € [0,1], soit a < y < b, 0 si À < 0, soit y < a, et 1 si 
b—-a b—-a y b—a y 


1 > 1, soit y > b. Cela correspond bien à la fonction de répartition de la loi 
Ua, b] définie en section 4.2.1. 


Exercice 4.9 


En section 4.2.3 la loi l'(r, À) a été définie pour r entier (r > 0). Pour r, 
réel positif, on vérifie aisément (par changement de variable u — Àx) que la 


fonction de x : _ 
r—1 —)Àx 
TG) e 


est bien une fonction de densité, de par la définition même de Fr). 


Si elle existe, la fonction génératrice de X = l'(r, À) est : 


À" hr (À …. tr sens | 
= -———— x" e dx sit < À. 
0 T'(r) 
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Posons u = (À —t{)x, alors : 


y (+) = CS) | . Rue du 


Comme la fonction intégrée est la densité de la loi l'(r, 1), on a Y(4) — ( s ) 


At 
Sit > À on pose u — (t — À) pour constater que la fonction à intégrer 


contient e“ en lieu et place de e7" et l'intégrale est divergente. 


Pour calculer E(X), dérivons Y(#) : 


r)\7 T 


Y'(t)= > = E(X)=Y(0) = - 
O2 Go = vo) = 2 
puis : r(r +1)X7 r(r +1) 
ÿ”/(t = == E X?2 = y’! 0) = 
o= LE ae) = wço = +0 
et V(X) = ee (2) = “7. Notons que les résultats obtenus sont identiques 


à ceux de la section 4.2.3. 


Exercice 4.10 


Soit la v.a. T dénotant le temps entre une occurrence et la r-ième sui- 
vante dans un processus de Poisson d'intensité À. Alors T æ T(r, À) (voir 
section 4.2.3). L’évènement (T > x) est identique au fait qu’il y ait moins der 


occurrences dans un intervalle de temps de longueur x et, donc : 


où Fr(x) est la fonction de répartition de T. En dérivant, on obtient sa fonction 
de densité : 


, ge EXT) r er (rt 1 
F1. k r—2 À k 
Xx) e"%(Xx) 
DRE AS 
k! — k! 
To —ÀT pr —1l 
ER En (x > 0) 


(r — 1)! 


qui est bien l’expression donnée en section 4.2.8. 
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Exercice 4.11 


Soit X > l'(r, À), alors, avec des notations évidentes : 


re de DO eo) 


r Tr 
1,,æ, Ile Fat (Aÿe-$ezr-l 
Re RO ques L (r —1)! 
qui est la densité de la loi l(r, à). De la même façon, F\x(x) = Fx($), 
1 x T— 


fax(æ) = Lfx(&) = LATE = EE, densité de la loi T(r, 1). 


Exercice 4.12 


Pour la v.a. X de loi de Pareto de seuil a = 1, on a Fx(x) = 1-—x° pour 
æ > Let 0 pour æ# < 1, où 0 > 0. Pour Ÿ = In(X),on a: 

Fy(y) = P(Y < y) = P(eY <eÿ) = P(X <e)—=1-—e-t%. 

Comme Fx(x) est nulle pour x < 1, Fy(y) vaut 0 pour y < 0, ce qui restitue 
la loi €(). 


Exercice 4.13 


On a un processus de Poisson avec un nombre moyen d'arrivée par seconde 
À = 1/30. Soit X le temps écoulé entre le départ du guichet de la 1-ère personne 
et celui de la sixième, alors X = l(5, À). On cherche à calculer P(X < 30), soit 
P(X < +) ou P(AX £ 1). Comme AX + (5,1) selon le résultat de l'exercice 
4.11, cette probabilité vaut de ze” “dx. Posons I, — ie x"e dx, alors, en 


intégrant par parties : 


D'où la relation de récurrence 7, = n1,_1—e"!. En partant de 19 = fe e*dx = 
1—e-l, on trouve 11 = 1 — 2e-!, I = 2 — 5e-l, 13 — 6 — 16e! et 11 — 
24 — 65e-!. Finalement, en divisant 14 par 4! on obtient une probabilité d’en- 
viron 0,0366. On peut accéder directement au résultat avec EXCEL en évaluant 
LOI.GAM M A(30 ; 5; 30; VRAI). 
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Exercice 4.14 


La va. Y = X — 1 prend, respectivement, les valeurs 0 et 1 avec proba- 
bilités 0,7 et 0,3 et suit donc une loi de Bernoulli B(0,3). Soit Y1, Y2,--: ,Y20 
des variables aléatoires i.i.d. de cette même loi, alors We Y; suit une loi bi- 
nomiale B(20; 0,3). Le parking aura une capacité suffisante si l'événement 
(7°, Yi +20 < 29), soit (37°, Yi < 9), se réalise. Par EXCEL on obtient une 
probabilité 0,952 pour l'expression LOI. BINOMTIALE(9 ; 20; 0,3; VRAI). 
Alternativement, par l’approximation gaussienne introduite en section 5.8.3, 
on calcule P(S < 9,5) pour $S + W(20 x 0,3; 20 x 0,3 x 0,7), soit P(Z < 
256) + P(Z < 1,71) pour Z «> N(0:1), ce qui vaut 0,956. On notera que 


Va 
l’approximation est satisfaisante dans la mesure où 20 x0,3 > 5 et 20x0,7 > 5. 


Exercice 4.15 


Selon la définition donnée en section 4.2.5, X > LN(u,a?) si Y =In X 
N{u,0?). Ainsi u et a? sont la moyenne et la variance non pas de X mais de 
son logarithme. Pour trouver y et o?, sachant que E(X) = a et V(X) = b, 
il faut résoudre les équations suivantes obtenues à partir des expression s de 
E(X) et de V(X) établies en section 4.2.5 : 


ent = u+30?=Ina o?=In(1++) 
2 2 > 2 LEA 1 b 
e b mn >: n(1++) 
Ici a — 70 et b = (12)? ce qui donne y = 4,234 et a? — 0,02896. 


Dès lors, on peut calculer des probabilités selon le modèle retenu, par 
exemple P(X < 80) = P(Y < In80) = P(Z < Mise) = P(Z < 0,870), où 
Z x N(0;1), soit une probabilité de 0,808. 
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Chapitre 5 : Lois fondamentales 


de l’échantillonnage 


Exercice 5.1 


La va. T = 5, X; est de loi l'(n, À) (voir section 4.2.3). Soit Fÿ(x) la 


fonction de répartition de X : 
Fy{x) = P(X < x) = P(T <nx) = Fr(nc). 


Passons aux fonctions de densité : 
ai ere = (nA)" a ler (nm) 
n—1)! 


(n —1)! 


qui est la densité de la loi l(n,nÀ). Note : On peut aussi utiliser les fonctions 


Fx(x) = nfr(nx) = 


génératrices sur le modèle de l’exercice suivant. 


Exercice 5.2 


Pour T = 5, X;, on a la fonction génératrice Yr(t) = [Yx(t)]" où Yx(t) 
est la fonction génératrice de la loi l'(r, À) (voir proposition 3.12). D'où Yr(t) = 


(&) Or : 


Br = V0 = EleËt) = BTE) = Vr(D) = ( (a) 


qui est la fonction génératrice de la loi l(nr,nÀ). 


Exercice 5.3 


Calculons la fonction caractéristique (voir note 2.4) de la v.a. X qui suit la 


loi de Cauchy définie lors de l’exemple 2.1. : 
Px(t) = E(e"**) = E(costX) +iE(sintX) 


+00 ; +00 4: +00 
_ = | cos tx dr+ie | sin {x __… = J cos tt ds 
0 œ 


T J_x 1+2%2 T J_x 1+? T 
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d'où dy(t) = E (ere) = IL, dx,(4) = [er # = e-ll, La loi de 


Cauchy n'ayant pas de moyenne (ni a fortiori de variance), la loi des grands 


nombres ne s'applique pas. 


Exercice 5.4 


La statistique (n—1)5? = 5, (X;—X )? peut s'écrire (voir la démonstration 
de la proposition 5.2) = (Xi — u)? — n(X — u)? ou encore 375, (X; — 
nu)? — 1575, (Xi — ul. Soit Z; = X; — u. On a E(Z;) = 0, E(Z2?) = 0? 
et E(Z4) = y}, où a? et y, sont, respectivement, les deuxième et quatrième 
moments centrés de la loi mère de l’échantillon aléatoire considéré. Les Z; sont 


i.i.d. Par substitution et développement du carré d’une somme, on obtient : 


(n—1)S -ÿ4-} DA+3722|- m1 5 72 252 
i=1 


i<j i<j 


— 1 2 
— > > Ÿ_Z:Z; 


Dre ere, 


Le premier terme vaut (y (nu + n(n — 1)o{), le deuxième est nul car 


il contient soit des termes en E(Z;7;22) avec à £ j  k, soit des termes en 
E(Z;23) avec j  k. Pour le dernier terme les produits croisés sont nuls car ils 
contiennent soit des termes en E(Z27;7%) avec i £ j £ k, soit en E(Z;7; 7x2) 
avec i £ j £ kZ 1. Il vaut donc $E(S DZ?77) = A Finalement : 


i<j 


PA ee ne Ne Ce tn. [E(5?)|? 


Pour la loi de Gauss, y} = -4=04 = 304, donc V(S2) = L (804 — 204) = 


Ax2! 
1,52 . 
ke DS suit une loi du 


Note : On peut retrouver ce résultat sachant que 
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khi-deux à n — 1 degrés de liberté dont la variance est égale à 2(n — 1). D'où 
(n—1)}V(S?) 2\ _ 20° 


Exercice 5.5 


Quel que soit à les valeurs possibles pour X; sont a1,a2,...,an et sa loi 
marginale est P(X; = a;) = + pour j —=1,2,...,N. 

La loi conjointe de X; et X4, i £ k, est P(X; = a;, XK = &) = FAT: car 
il y a N(N —1) arrangements pour les (a;, a), tous équiprobables par symétrie. 
Il résulte de cela que : 


1 
EX) = xp 2200 = NN 5) Q a? ne 


JAI 
d'où E(XiXx) = yen N°4? — (No? + Ny)] et cou(X;, Xx) = E(X:Xx) — 
o? 
up? = NI 


Puis VO Xi) = Di VX) +237, cou(X:, X4) et, comme il y a 


== Es 
mn) termes de covariance ici, 


Exercice 5.6 


Soit Z; = X; — pu, alors X — y = Z, E(Z) = 0 et SX) = 
DZ -Z} = 3, 2? — nZ°. Donc : 


i=1 
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or E (Zi 2?) = ED 2) 27) = RE 2?) = hs 


et E(2?) = EE Zi [a 25] Dia ZA) = RE 2) = use 
D'où : 


es 1 / 1 / Li. 
cou(X, 5?) = p ps DS 


Exercice 5.7 
Soit Z > W(0;1) et, donc, Z? + x?(1) de fonction de répartition F72 et de 
densité f72 Alors : 


Fax) = P(Z? < x) = P(-Vx < Z < Vx) = 2®(/x) — 1 si x > 0 (0 sinon). 


En dérivant : 


fz2(x) = ei — À si æ > 0 (0 sinon). 


Exercice 5.8 


La fonction génératrice de la loi x2() est W(t) = (1 — 24) 7 (voir sec- 
tion 5.3). Sa moyenne est donc y = Ÿ’(0). Comme Y’(t) = v(1 — 7) Ne 
on à jy — v. Le moment simple d'ordre 2 est 2 —= Y”(0) avec W(t) — 
v(v + 2)(1 — 2t)-572, soit ya = v(v + 2). La variance est le moment centré 


d'ordre 2 : ph = u2 — u? = 2v. 


Exercice 5.9 


1. fo g(x)fx(x)dx > [, g(x)fx(æ)dx > k [, fx(x)dx. 
Donc E(g(X)) > k [, fx(x)dx. 


Mais /, fx(x)dx = P(X € À) = P(g(X) > k). D'où : 
E(g(X)) 2 kP(g(X) > k). 
2. En prenant g(x) = (x — u}? et en posant e? =k,e>0,ona: 


0? = E((X — u)°) > eP((X — n)?) > &?) = ?P(IX ul > €) 


ce qui démontre l'inégalité de Tchebichev. 
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3. Posons X = Y, — Y. Alors E((Y, — Y}?) = E(X?) > e2P(IX| > €) = 
E2P(|Yh —-Y|>E) pour tout € > 0 donné. 
Yh TS Y équivaut, par définition, à lim E((Y, — Y)?) — 0. Donc 
dim P(Y, —Y| > €) — Cou lim P(|Y, — Ÿ| < €) — 1 ce qui définit 
Y, 2 Y. 


Exercice 5.10 


Soit X1,---,X, de loi mère de moyenne y et de variance o?. Appliquons 
l'inégalité de Tchebichev à X, de moyenne y et variance = : 


o? 


P(IXn — ul > €) < = pour toute > 0 fixé. 


Donc lim P(IX,-u>e)—-0 = lim P(IX,-p]<e) —1 


soit, par définition, X, + y (convergence faible). 


Exercice 5.11 


La médiane de la loi mère est le nombre M = F71(5) où F est sa fonction 
de répartition. La fonction de répartition du maximum de l'échantillon X{,, est 
[F(x)]" en x (voir section 5.6), d’où : 

1,1 nil 1 
P{Xm <FTG))=FETCNES = PA > M)=1- 
De même P (X{n) < F-1(5)) = (3)" et la probabilité que le maximum dépasse 
le troisième quartile de la loi mère est donc 1— (%)". Notons que dans les deux 


cas la probabilité tend vers 1 quand la taille de l’échantillon croît vers l'infini. 


Exercice 5.12 
Pour la loi [0,1] on a F(x) = x pour x € [0,1]. Pour le minimum X(1, de 
l'échantillon de taille n la fonction de répartition est : 


Fxa,() =1-[(1-F(x)7 (voir section 5.6) 
=1-(1-x)" pour x € [0,1] 
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et la fonction de densité est, par dérivation, fx,,,(x) = n(1 — x)"-? pour 
æ € [0,1] et 0 sinon. D'où : 


1 
E(X()) = n | t(l-zx)" "dx et avec r(1—#) = (1-2) f(x)", 
0 


1 1 
=n|/ Gas | ( 2)" ae] soit en posant t = 1 — x, 
0 0 
gli [ati]? 
=n — == 
el, a], 


Exercice 5.13 


1 1 1 


re ed et 


Reprenons le corrigé de l’exercice 3.7 qui donne E(X) = 2p — 1, V(X) = 
4p(1 — p), E(Y) = n(2p — 1), V(Y) = Anp(1 — p) où Y = D, X:. Pour n 
grand, Ÿ suit approximativement une loi normale W(n(2p — 1); 4np(1 — p)), 
donc : 


P(Y > x) = P(-x <Y < x) 


y = n(2p-1 = = 
=» | x — n(2p ze n(2p — 1) 


2V/np(1 — p) 2/np(1 — p) 
-e (re?) (se) 
2Vnp(1 — p) 2Vnp(1 — p) 


où ® est la fonction de répartition de la loi normale centrée-réduite donnée en 


| où Z x W(0:;1) 


section 4.2.4. 


Exercices appliqués 


Exercice 5.14 
Soit X le niveau de bruit d’une machine prise au hasard et X10 la moyenne d’un 
échantillon aléatoire de taille 10. On suppose que l’approximation gaussienne 
s’applique avec n — 10 (ce qui est réaliste s’agissant d’une mesure physique 
dans un processus de fabrication). On a : 

52 


X N(44 ; — 
( 10” 
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d’où P(X10 > 48) = P(Z > San) = P(Z > 2,53) = 1 — 0,9943 — 0,0057, où 


Z © N(0;1). On note que cette probabilité est très faible alors que pour une 
48—44 


3) soit environ 0,21. 


seule machine elle serait P(Z > 


Exercice 5.15 


__ 6,42 — 6,30 
_ 0,22/V30 
Pour T, v.a. de Student à 29 degrés de liberté, P(T < 2,99) = 0,9972, valeur 
obtenue dans EXCEL par 1 — LOI.STUDENT(2,99;29;1). On peut vérifier 
grossièrement l’ordre de grandeur dans la table fournie dans cet ouvrage. La va- 


= 2,99. 


leur observée correspond au quantile 0,997 ce qui est extrême sur la distribution 


des valeurs observables et rend l’indication du constructeur peu plausible. 


Exercice 5.16 


Soit X le poids d’une personne prise au hasard et X100 la moyenne d’un 
échantillon aléatoire de taille 100. L’approximation gaussienne s’applique sans 


_ 15,6)? 
X100 N' (5.3: ! .6) 1h 
approx 


problème. On a : 


100 
d'où P(X100 > TM) = P(Z > 670) = P(Z > 2,37) = 1 — 0,9911 = 


0,0089, où Z + W(0:1). 


Exercice 5.17 


On suppose que les 1000 personnes sont choisies au hasard dans la popula- 
tion française. Le taux de sondage étant très faible (voir section 3.7), on peut 
assimiler ce sondage à un sondage avec remise. À chaque tirage la probabilité 


d'obtenir une personne favorable est 0,44 et, donc, on a : 
Sn > B(1 000; 0,44) 


d'où P(S, < 420) + P(U < 420,5) où U + N(440 ; 246, 4). 
Soit P(S, < 420) = P(Z < Ps) = P(Z < 1,24) = 1 — 0,8925 = 0,11 
où Ze N(0;1). 
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Exercice 5.18 


Soit $, le nombre de pièces défectueuses parmi 120 pièces sélectionnées. 
On a : 


5, > B(120; 0,09) 


d'où P(Sy < 22) = P(U < 22,5) où U + N(10,8; 9,828). Soit 
PSS 20 er PILE ee ) = P(Z < 3,73), où Z = N(0;1). Cette 
probabilité est supérieure à 0,9995 comme on peut le voir dans la table (plus 
exactement elle est égale à 0,99990 selon EXCEL). Cette valeur est très extrême 
sur la distribution théorique et incite à conclure avec quasi certitude que le 


fonctionnement est anormal. 


Exercice 5.19 


Cet exercice, comme d’ailleurs d’autres ci-dessus, préfigure la démarche d’un 
test statistique. En arrière-plan de l’énoncé, on peut supposer que l’on a ob- 
servé un écart-type de 0,077 sur cinq mesures faites sur le même échantillon 
de sang — soit une valeur de précision correspondante de 0,154 mg/l — et l’on 
souhaite savoir si cette valeur observée est plausible au regard de la distribution 
théorique de $ considérant ce que l’on sait de la méthode de mesure. 


Soit donc $ l’écart-type d’un échantillon gaussien de taille 5. On s’intéresse 
à l'événement (S > 0,077) qui équivaut à (5? > 0,005929) ou Sr > 9,49). 
La statistique er correspond ici à Lens qui, selon le théorème 5.1, suit 
une loi x?(4). On lit dans EXCEL (LOI.KHIDEUX(9,49 ; 4)) une probabilité 
de 0,05 ce qui n’est pas très plausible, sans plus (quantile 0,95). Notons au 
passage qu'EXCEL n’a pas de cohérence pour les probabilités restituées par les 
lois et qu’il y a lieu de vérifier avec un exemple de calcul à quoi correspond la 
probabilité donnée pour telle loi en fonction de x (plus grand que, plus petit 
que, autre ?). 


Exercice 5.20 


On suppose que les 10000 ménages ont des comportements indépendants 


ce qui donne lieu à une suite de variables aléatoires i.i.d. de loi P(4). Leur total 
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T suit une loi P(40 000) dont la moyenne est E(T) — 40 000 et V(T') — 40 000. 
Cette loi peut être précisément approchée par une loi (40 000 ; 40 000). 
Comme P(—1,96 < Z < 1,96) = 0,95 où Z => W(0; 1), de même P(40 000— 
1,9640 000 < U < 40 000 + 1, 9640 000) = 0,95 où U => W(40 000 ; 40 000), 
soit P(39608 < U < 40392) = 0,95. Donc, en négligeant toute correction de 
continuité et en arrondissant, un intervalle de probabilité 0,95 de [39 600, 40 400]. 


Exercice 5.21 


Pour une seule opération l'erreur d’arrondi est une variable aléatoire 

X = U[-?, +4] d’où E(X) = 0 et V(X) = :&. Pour T, l'erreur d’arrondi to- 

tale sur 1000 opérations, on a E(T) = 0, V(T) = IMetT > N(0; 1900). 
approx 


Comme P(—1,96 < Z < 1,96) = 0,95 où Z «> N(0;1), de même : 


1 1 000 
PO 1,96) <T<0+1,964/ 5) = 0,95 


soit approximativement un intervalle [—-18, +18] en centimes d’euros. 


Exercice 5.22 


Rappelons que le paramètre À de la loi €(À) est l'inverse de sa moyenne. 
Pour un accumulateur quelconque, on à ainsi une durée de vie X x € (à) dont 
la fonction de répartition en x est Fx(x) = 1 — e-2® pour x > 0. L'appa- 
reil fonctionne si et seulement si, avec des notations évidentes, l’événement 
(X (1) 2 x) est réalisé, où X(1, = min{X1, X2, X3}. Selon la loi générale du mi- 
nimum d’un échantillon explicitée en section 5.6, la fonction de répartition de 
X() est, au point x > 0, Fx,,(x) = 1— (e- 37) = 1—e”2* laquelle correspond 
à la loi €(3). 


Donc E(X(41)) = 2 et P(X() > 1) = e-3 © 0,22. 
Exercice 5.23 


On doit envisager un processus de Bernoulli avec probabilité de succès 0,9, 


la variable d'intérêt Y étant le nombre d’essais pour arriver à 100 succès. 
P 
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La loi de Y est la loi binomiale négative sous la deuxième forme définie en 
fin de section 4.1.4, avec paramètres r = 100 et p = 0,9. Alors Ÿ prend ses 
valeurs dans {100,101,-.-}, E(Y) = ? + 111,1 et V(Y) = "052 & 12,35. 
Comme on a vu dans la dite section qu’une loi BW(r,p) peut être envisagée 
comme une somme de r variables aléatoires i.i.d. de loi G(p), le théorème central 
limite s'applique et la loi binomiale négative peut être approchée par une loi 
de Gauss pourvu que r soit suffisamment grand, ce qui est le cas ici car r est 


largement supérieur à 30. Ainsi, en utilisant la correction de continuité : 


P(Y > 111) + P(U > 111,5) où U «> N(111,1: 12,35) 
AA EN 
V12,35 


Pour être sûr de fabriquer 100 pièces bonnes, il faudrait prévoir de fabriquer 


= P(Z > )= P(Z > 0,11) = 1—0,5438 = 0, 46. 


une infinité de pièces ! 

Pour atteindre 100 bonnes pièces avec probabilité 0,99 il faut fabriquer n 
pièces où n est tel que P(Y < n) = 0,99 ou plus correctement P(Y < n) > 0,99 
puisque nous sommes sur une loi discrète. Or P(Z < 2,33) — 0,99, donc 
P(U < 111,1 + 2,33,4/12,35) = 0,99, soit P(U < 119,29) — 0,99. Comme 
119,29 < 119,5 on prendra n = 120 pièces. 
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Chapitre 6 : Théorie de l’estimation 


paramétrique ponctuelle 


Exercice 6.1 


Il s’agit de voir si ces lois à un paramètre (inconnu), disons 0, ont une fonc- 
tion de probabilité, respectivement fonction de densité de probabilité, pouvant 


se mettre sous la forme (voir section 6.3) : 
p(x: 0) = a(8)b(x) exp{c(8)d(x)} 


où à, b, c,d sont des fonctions. 


Loi BN(r,p) avec r connu 
Fonction de probabilité : 


p(x;p) = ( 7 ra —p}", zeN 


x 


L ( Lu Dr exp{z In(1 — p)} 


forme classe exponentielle avec a(p) = p”, b(x) = CA c(p) = In(1 — p) et 
d(x) = x. 
Loi P()) 

Fonction de probabilité : 


e7 À? : 


e À ( ï) exp{x In À} 
x! x! 


forme classe exponentielle avec a(À) = e*, b(x) = Æ, c(X) = In À et d(x) = x. 


xl? 


p(x; À) = 


Loi E() 


Fonction de densité de probabilité : 
f(x; À) = Xe = Xexp{—Àx} 


forme classe exponentielle avec a(À) = À, b(x) = 1, c(À) = —X et d(x) = x. 
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Loi l'(r, À) avec r connu 


Fonction de densité de probabilité : 


. … À a Lle À — À" gx" 1 xp{— dx 


F 


RS): br) = #71, e(à) = à et 


forme classe exponentielle avec a(À) = 
d(x) = x. 


Exercice 6.2 


f(x: C)) — bars PPT 5 2 Ce) — (8° )Lia,+o0[(€) exp{—(0 + 1) mx}, 


de forme classe exponentielle avec a(0) = a, b(x) = lu+æ(æ), c(0) = 
—(0 +1) et d(x) = Inx. 
Donc ÿ}_, In X; est statistique exhaustive minimale. 


Comme y = À (voir section 4.2.6), l’estimateur des moments OMest tel 


Le . sd 
DE OM = 2 On constate qu’il n’est pas fonction de la 


a 


que X — 


, Soit 
1 
statistique exhaustive minimale ci-dessus (et en ce sens il ne saurait être un 


des plus pertinents). 


Exercice 6.3 


f(x; a, 8) = HS À _ LC (a) 
s nu Te À vale) exp{alnx + Bln(1 — x)}, 


de forme classe exponentielle avec d1(x) = Inx et d2(x) = In(1 — x). Donc le 
couple (57_,InX;, 3.7, In(1 — X;)) est statistique exhaustive minimale. 


Pour l’estimateur des moments du couple (a, B), on utilise le fait que (voir 


x a (es 1 a ô —_ 
section 4.2.8) E(X) = 45 et E(X?) = Tes an CARRE à 
—- Il s’agit donc de résoudre en (a, 3) le système : 

al 7% ail =X% 
{ NC di sl n X2 Ed { a+2 Ti mn X2 : 
(a+B5+2)(a+6+3) — n dit i a+B+3 n D ii i 
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soit deux équations linéaires en a et 5, dont la solution in fine est : 


ane X)-F(G+X) gu _ X=-C-FXE+X) 


52 52 


On constate qu’elle n’est pas fonction de la statistique exhaustive minimale 


ci-dessus (et en ce sens elle ne saurait être une des plus pertinentes). 


Exercice 6.4 


La fonction de répartition de $ en s est P(S < s) = P(S? < s?) = 

2 2 2 
P (ans < (m—1)e )- Fine) (== ) (selon le théorème 5.1) où F,2(5-1) 
est la fonction de répartition d’une loi du khi-deux à (n — 1) degrés de li- 


berté. La fonction de densité de S est donc Im De x2(n—1) (L2=) que 


[ex 
l’on peut écrire explicitement en substituant (proposition 5.5) f,2(n-1)(7) = 
pir-D/2r(E tb) trtr-3)/26-2/2, avec x > 0. On peut calculer directement 
E(S) par : 


1 
LL _ & (n—1)512?\ © 1 F% 1 n=3 _z 
E(S) (| 52 | ) = x?x 2 e ?dx 
où l'intégrale n’est autre que la densité de la loi du khi-deux à n degrés de 
liberté au facteur [2/27 (2)]-1 près. D'où : 


LE 7®) 
FEV a er re 


Pour éliminer le biais, il suffit de prendre, comme estimateur de o&,4/75- + RE 2 j D) S. 
2 


Exercice 6.5 


1. Soit n = 2k — 1, la médiane est la statistique d’ordre k, notée X{},. Sa 
fonction de répartition (voir proposition 5.12) est : 
G(x:0) = 3; 4 (°) [F(x — 0)}[1 — F(x — 0)]"-T. Sa densité est donc : 
g{e6) = Ds (Se — USE CE — OPEL — Fe — 6-5 
Rae . Qi RON 
g(x; 6) RO) 0e OP FO T-nA(e 06). 


2. Notons que f(—t) = f(t) équivaut à F(—t) = 1 — F(t). Soit x1 = 0+h et 
x2 = 0 — h. Il suffit de montrer que G(x2;0) = 1 — G(x1;0). Posons F(h) = a. 
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Ainsi : 


er j 
G{22:0) = > (rep - rm = » ()u- cer 
k 


en posant s = n — j (et comme n = 2k — 1). 

Donc G(x1: 0) + G(x2:0) = 3752, (Yjat(1 — a) = 1. 

3. Soit M la médiane empirique, alors E(M — 0) = ECG — 0)g(x;0)dx = 
ue tg(t + 0; 0)dt = 0 car g(—t +0:0) = g(t +0;0). Notons qu'il est toutefois 
nécesssaire que ces intégrales existent, ce qui revient à ce que 1 x f(x —0)dx 


existe, soit que la loi mère ait une espérance mathématique. 


Exercice 6.6 
X est sans biais pour À puisque E(X)=+; V(X) = —: egm1(X) = 


T= had = 5% X, donc E(T) = -%5 et T a un biais ——5+; 


— 1 1 n dl. — L 
x 7 (n+1)2X2 1 (n+1)2 X2  (n+1) 
quadratique moyenne Test meilleur, le gain de variance étant supérieur à la 


r5z < egmi1(X). En erreur 


perte due au biais. 


Exercice 6.7 


n—3 


2394) et est sans biais donc son 


Comme vu à l'exercice 5.4, V(S?) — (ua — 
e.q.m. est V(S?). 


5? = 2-16? et à un biais ee V(S2) = y (52) = CE — 161) 
G: u n—1)?, n— © 
$? domine $? en e.q.m. si (ny — 04) LS = (a — I 04) - c3 = Di 


nt 2n—1/,, n—3 _4 o4 
soit (us — Ho) > TZ 


ou, finalement, y, > DRE 04. 
Pour la loi de Gauss 14 = 304 et l’on peut aisément vérifier que cette condition 
est remplie pour tout n > 1. Si l’on s’en tient au critère de l’e.q.m., on doit 


préférer S?. 
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Exercice 6.8 


Soit pour X -> U[0, 6] la fonction de répartition Fx (x; = = $ six € [0,6]. Donc 
pour un échantillon de taille n, | (x:0) = [Fx(x;0)] = (£)" si x € [0,6]. 
Pour tout € > 0, P( (|X(n) — | > €) = P(X(n) < 0 — €) = (=) qui tend vers 
0 quand n — ©. Ainsi pour tout € > 0, P (| X(n) — 6] < €) — 1 quand n — 
ce qui définit la convergence en probabilité de X{,, vers 4 (définition 5.14). 


Exercice 6.9 


L’estimateur UMVUE est T — SEX, (voir exemple 6.11). Posons T, = 
i=1 % 
51 Xi. Suivant le même argument que pour démontrer E(4+) = À dans 
l'exemple 6.11, on a, à condition que n > 2: 


1 Fe À 
ED | Ne Le Age 
0 


T2 t(n—1)! 
a — on À ("Be Nat = en — 
(n —1)(n —2) (n —3)! (n—1)(n —-2) 
x x x » x 
Donc VX) — (n-lin-2) (n—1)7 — (n-1)2(n—2)? d'où V(T) = m2) — 
egmA(T) pour l’estimateur UMVUE. 
L’estimateur des moments est + = UT, d’où E(<) = —1\ avec un 
2 
biais À: v(+) = (#5) et : 
1 2 n? 9 n+n—2 2 
CE GE = 2) 1) 2) 


Or, pour toutn >2, Le sie 2 > 1carn?+n—2-—{(n—1)? = 3(n—1). Non 
seulement l’estimateur des moments est dominé en e.q.m., mais en plus il est 


biaisé. 


Exercice 6.10 
De toute évidence, la famille est dans la classe exponentielle, avec d(x) = x?. 
Ainsi D, d(X;) = »;_, X? est statistique CURE minimale. 
x2 
E(X?) = [j® Se % dx, soit, en posant { = &, E(X?) = 20 [\®te-tdt. 
Or l'intégrale ci-dessus est la moyenne de la loi £(1) et vaut donc 1. Donc 
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E(X?) = 26 et E(E 57, X?) = 6. En vertu de la proposition 6.7, £ 577, X? 
— sans biais et fonction linéaire de 57°_, d(X;) — est efficace. On peut dire aussi 
que cet estimateur de 4 est UMVUE. 


Exercice 6.11 


1. P(n(#) <x) = P(X <ae*)=1-(-2 \ si ae* > a, soit æ > 0 (voir fonc- 


ae” 


tion de répartition de la loi de Pareto en section 4.2.6). Ainsi P(In (*) < x) = 
1—e-% pour x > 0, qui est la fonction de répartition de la loi £(@). 


2. La densité de la loi de Pareto est : 
f(x:0) = bar HD (x) = OL +s(æ) exp{—(0 +1) In x}, 
qui met en évidence la forme de la classe exponentielle avec d(x) = In x. 
+), alors 3, Y; > l'(n,8) puisque Y; + €(8). 
Selon l’ a. 6.11, E (si) = #_, d'où E (4 1) = 0. La statistique 


n—1? 


Posons Y; = In(* 


ST. 
n—1 n—1 


> , m(& i) : DMX; -nlna 


est une fonction de ÿ_,1n X; sans biais pour 0. D’après la proposition 6.6 


c’est la statistique UMVUE pour estimer 6. 


3. Selon la proposition 6.7, seul »77_, d(X;) est efficace pour estimer (8) — 

Ep(S_1 d(Xi)) et ceci à une fonction linéaire près. Or E(In(*)) = À, la 

moyenne de la loi £(8). Ainsi E(1 37%, In(*)) = Let 1 577, In( 
1 


biais et efficace pour estimer >. 


Xi) est sans 
(22 


Exercice 6.12 


1. La densité est : 
f(a:0) = bar OF, ,1(x) qui ne peut être mis sous la forme de la 
classe exponentielle en raison de 1,,,41(x). 


2. L’estimateur des moments pour a est solution de a = X (voir section 
4.2.6, si 0 > 1), soit AM = IX. 


3. Utilisons le théorème 6.1 : 


n n —(0+1) n 
[L/G:0) = pa"? (l s) IL a+oo(ri), 
i=1 i=1 


i=1 
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ordis) = later an) oui =mnliu:e.; 2", Donc: 


: —(6+1) 
IL Li, à) —= = a" ‘TL Lette so (T] «) 0" 
i=1 


et d’après le théorème X,,, est exhaustive. Elle est minimale du fait qu’elle est 
de dimension 1. 


4. La fonction de répartition de X4,, est 1—[1—F(x;a)]" = 1— ct sit >a. 
Donc X(,, suit une loi de 2 de paramètre de seuil a et de paramètre de 
forme n0, d’où E(X) = tn E (2£ TX (1) = a et (1— 4)X a) est un 
estimateur sans biais pour a. Notons qu’il n’est pas pour autant UMVUE car 


on n’est pas dans la classe exponentielle. 


Exercice 6.13 


1. Pour la famille des lois W(u,1), € R, on a la densité : 
f(x; u) = Vos XP{ L(x—y)"}. Calculons : 
In fa; y) = —4in(2r) - (ru), Emf(ru)=2-y, 
2 2 
en fn) = 1, (0) = E | n f(X0)] = 1. 
La borne de Cramer-Rao est 
que V(X) = À, X est efficace. 


25 = L. Comme X est sans biais pour y et 


2. Pour la famille des lois W(0 ,o?), a? > 0, posons v = o? pour simplifier les 


écritures. 
f(æ;v) = ARE Foi v) = HOT =ihuerr 
_ In f(x; v) = = 2 ++ de ue S 77 = &, 
_ . EC?) 
I(v) = E ir In f( (X: v) — 5 L pe + Du? EU V2 ? 
car E(X?) = 0? = v, donc I(v) = :4 ou I(o?) = :+ et la borne de Cramer- 


Rao est _ = Le 
nm 2 nm 2 
Notons que 2=1X2 est sans biais pour o2et que V (EX) =1iV(X= 
n n n 
1 LE (X1) — [E (x?) = À (304 94) = 20°, Donc cet estimateur est eff- 
nm nm nm 
cace. 
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Exercice 6.14 


Comme vu en section 6.6.3, pour estimer une fonction h(p) — —. du paramètre 
RE)? 1 


p, la borne de Cramer-Rao est Un HE Pour la loi de Bernoulli 
f(ap) =p°(1-p) +, ve p)=æmp+(i-zx)ln(1-p), 

Se) . RTC 

I(p) = E TR (ZX; p)| = D + ee = ; + er = 5 La borne de 


Cramer-Rao donc, pour einer h(p), PETUE 


Exercice 6.15 


On a: In f(x;0) = —Inx —In[1+(x—0)?], In f(x:0) = Tr 


2 A(X—0)? +00 x—0)? 
I(0)=E [M /(x8) | = E re | s ne Sp de. 
Posons t = x — 0 : 


CO 2 
(8) = Se —- dt = _ larctant + ts E 


j” 


La borne de Cramer-Rao pour 4 est donc 2. 

La variance asymptotique de /n(M, — 0) est ee æ 2,47 > 2, donc M, 
n’est pas asymptotiquement efficace et n’est pas un estimateur BAN (voir la 
définition en proposition 6.11). 


Exercice 6.16 


Estimateur des moments 


Il vérifie £ = X et c’est donc OM = 9X. Il est sans biais et egm(@") = = 
2 2 2 
VOS Res 


Estimateur du MV 
On a vu que £MV = X(n) ee. 6.21) et que E(X(n)) = 2750 (CREME 
n 2 
ie 0 — m+070 . 


Calculons V(X(»)) = EX) — 
La densité de X(,) étant ne si æ € [0,0] et 0 sinon (voir exemple 6.4), on 


6.4). Son biais est . 


a : 
ant? y n 
E(X?,,) _ =nfss de = 25602; V(X(n)) 


7 02. D'où : 


= mA) 
e. 


2 
eqmX (n)) = ( ) CES CE D LA = GED) 
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Estimateur #1X,,, (UMVUE) 
Calculons sa variance d’après celle de l’'EMV. 
e?. 


eg X Go) = VX) = (EE) VX) = er 


Pour n > 3, on vérifie aisément que egm("1X,,,) < egm(X(n)) < egm(0M). 
Pour n = 2, la deuxième inégalité devient une égalité. 

2 % 
Notons que pour n grand, egm(2EX(,)) Fr , EGMÂX (n)) © 2, egm(9M) + 
L. L'estimateur des moments est largement dominé par les deux autres (il 
est peu pertinent car il n’est pas une fonction de X{,), statistique exhaustive 


minimale). 


Exercice 6.17 


La fonction de probabilité de cette loi au point k s’obtient par : 


fax) = P(X =k] X 40) = ER = A. Alors : 
In f(x; À) = —-À+xlnÀ— ma!— In(1 — e-*). 

Eu L- ne? 
À In f(x; À) = LS ie x ? 7 InL(À) = n Li 1e? 


L’estimation du MV est la valeur de À (si unique) telle que : 
n + De Ti ne? 
À 


Ie X — 


Pour x = 3, la solution donne, par approximations successives, AMV = 2,82. 


0 où = = = 7. 


Exercice 6.18 


La densité de la loi de Pareto est : 
0) =E (£)°* "pour x > a et 0 sinon. 
In f(x;0) =In£+(0+1)Im£; &iInf(x;0) =}+Im£; 
2 nmL(8)=%+);ime. 
L’estimation du MV est telle que : 


2+3;m # = 0, soit pour l’estimateur guv = DRE 
Dans la solution de l’exercice 6.11 on à vu que E —) — 0, donc 
i=1l X; 
E(OMV) = -2_9. Son biais est 2-0 — 9 = rt. 
Pour la borne de Cramer-Rao calculons : . In f(x;0) = —E, d'où 1(0) = + 


et la borne est _ 


Pour la variance de l'EMV notons que selon l’exercice 6.11, Y; = In( Xi) et 
2 


Y; > E(8). Posons T = 3%, Y;, alors V(OMV) = V(2) = mn 1070° 
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comme il à été établi lors de la solution de l'exercice 6.9 pour V(Æ). Comme 
2 


CD) CESSE 2 + g quand n — co, OMV est asymptotiquement efficace. 


Exercice 6.19 


Calculons : 
In f(x; p) = des In(p+1)+Inx+(p—1)In(1 - x), 
ap In fr: p) = er -In(1 — x). 


Donc ÿM V tation du MV) est solution de + pH +3, In(l-x;) = 


0 ou En) = —15} ,In(l — x;). Posons a = ee n(l — x). Il faut 
résoudre en p l'équation 2p + 1 = ap(p + 1). Les solutions sont 4. ETES 


Comme a ne prend que des valeurs positives, la seule solution dans R+ est 


<MV __ 2-a+v4+a? 
P = 2a ù 


Exercice 6.20 


Loi binomiale négative BN(r,p) avec r connu 
fonction de probabilité f(x; p) = Cp —p}f, ze N. 
me = In (7) | ns -æln(1 —p) 


5 In f(x;p) = 5-12; PMV (estimation) solution de es U;:0'6ù 
pire re ten) La solution est intuitivement réaliste puisqu'elle 


consiste à faire le rapport du nombre de succès sur le nombre d’essais. 


Loi binomiale B(n, p) avec n connu 
fonction de probabilité f(x; p) — és )p E(1—p} 5, x = 0,1,..:,n 
In f(x; p) = In (?) +zxinp+(n—x)In(1— p) 


Ÿ : = & _ n=z. SMV : : : ZE _ NE — 
95 In f(x; p) ne (estimation) solution de PRE = ml 
d'où PMV = Æ (estimateur), nombre de succès sur nombre d'essais. 


Exercice 6.21 


La fonction de probabilité non nulle pour x € {1,2,--: ,N — M +1} est: 


N-MN-M-1 N-M-(x-2) M 


JG N)=P(X = x) = N N=1 N—-(x-2) N—-(r-1) 


mf(tN)=)ESM(N-M-Kk)-DE  In(N-k)+InM 
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RENE rt Fo; NMV (estimation) solution 


annulant cette expression. 


Application 
; = 1 1 1 ÉLNES 
M = 100, x = 3, résoudre en N : %—56 + n-101 _(R +7 +7) =0. 
La solution donnée par un logiciel mathématique est NMV = 300. 


On notera que c’est la même solution que dans un échantillonnage sans 
IV 1 da 


D tn _M SMV a ES 
remise où Ÿ = X — 1 > G(p) avec p = +, car st 


Exercice 6.22 


La fonction de probabilité est f(x; À) = Arte, x > 0. 


0) 
OR nT(r) +(r—1)Inx — x 
in f(as À) = Ex; in L() = LS 6. AMV (estimation) solution 


annulant cette a donc AMV (estimateur). 


Pour n grand AMV  N{i: 

I) approx 
In f(x; À) = 5; 10) =E|-# Se mf(X; \) = 5, 

d'où AMV «x W (À; Le Ce résultat sera utile pour établir un intervalle de 


approx nr 
confiance pour À (voir chapitre 7). 


Le: 5) selon la proposition 6.11. Calculons 


Exercice 6.23 


La densité de probabilité a posteriori de p sachant (X1,---, Xn) = (21,-:: ,2») 
— ou en bref X = x — est, en posant s= D: 


= rt" VpQ— p) pti(l-p}rs+ti 
Tp|Xx=x\P — 

DT IN — p}" 8 /p(1 — p)dp rt = p}"-5+2dp 

qui est la densité de la loi Beta(s + &,n— s+ +). Pour l'estimation bayésienne 


T(s+5) . ee Le 
(n-4)* T(s+5)  n+3° 


de p on prend sa moyenne + 


Pour une loi a priori Beta(a, B), on a une densité proportionnelle à p%(1—p}", 


avec à > —1,$ > —1, d’où une loi a posteriori Beta(s + a,n — s + B), de 


s+a+l 


moyenne n+2+o+s à 
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Chapitre 7 : Estimation paramétrique 


par intervalle de confiance 


Exercice 7.1 


Pour y la largeur est 2 x 1, 967. 
Pour so on a l’IC (voir note 7.5) : 


Va=Ds Yi Ds 
x + RE 


Pour n grand la loi y?(n — 1), de moyenne n — 1 et variance 2(n — 1), est 


ICo,95(o) = 


approchée par la loi W{n — 1;2(n — 1)) (voir la remarque de la section 5.8.3). 
Donc : 


xs (n— 1) +1,96/2%n = D = (n — 1) [1+1,96/725] 
PI 2 (n—1)"À h+196, 75] * 2 (n—1)7à [1-1,06,/5] 
et de même par simples changements de signes : 
Det en) 8 [141,964]. 
D'où  ICo5(o) [CL = 1,964/%), s(1+ 1,96 +) dont la largeur est 
on soit V2 fois plus petite que celle de l'IC sur y. 


Exercice 7.2 


Pour un échantillon (X1, X2,--:, X,) delaloi W(0;a?),ona Liz As X?(n). 
Donc : 


2 Tin 2 TX? meXe 
P(Xa (n) < Doit < Xe) =1-a P(ÈRS _ o? ee bis ) EE a, 


o? 


Corrigés des exercices 371 


Exercice 7.3 


Pour X => U{[0, 6] on a la fonction de répartition Fx(x;0) = % six € [0,0]. Donc 
pour un échantillon de taille n, Fx,,, (2:09) = [Fx(x:0)]" = (3) si x € [0,6]. 
Le quantile x, de X{,) est tel que (&)" = à où Ta = 0ar. Ainsi : 

P (0(0,025)* < X{ny < 0(0, 975) ) = 0,95 

P (Xe (0,975)-* < 8 < X{)(0, 025)-*) — 0,95 


d'où ZC,95(8) = [rn)(0, 975) #, Zn) (0,025) * | | 


Exercice 7.4 


La densité de la loi x?(2n) est, au point x, rune" lei (x > 0) et sa 
fonction de répartition est : 


% 1 ; 24 
Fo(x;2n) = ET — le tdt = Jn_1. 
A) Î Zn À FD, Jn=1 


Intégrons par partie J4 pour établir une relation de récurrence : 


3 k 4e 5 3 pk-lo-t (£)° e-5 
Jx = — er = d + | dt — 2 + Jr 
À Fi 1) (re |. s (ED) k! Je 


avec Jo = 1—e7%. 


Door eee G 


Remplaçons x par 2À et 2x +2, x entier, par 2n pour obtenir F,2(21; 2x +2) = 
1-3 se = 1 Fp(x; À). Trouver À tel que, pour x donné, Fp(x; À) = a 


équivaut à prendre le quantile d'ordre 1 — & de la loi y?(2r +2) puis à le diviser 
par 2. 

Exemple 7.6 : T + P(7À). Pour x = 18 et à = 0,025 on prend pour 7À le 
quantile 0,975 de la loi x?(38), soit 56,9. Cela donne la borne supérieure de 
PIC sur 7À : 72 = se — 28,4. Pour la borne inférieure, on obtient x = 17, 
a = 0,975, x6.025(36) = 21,34 et 71 © 10,7. Finalement, on a trouve bien le 
même intervalle pour À : [1,53 ; 4,06]. 
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Exercice 7.5 


On a T = en X; B(20; p). Il faut résoudre en p les deux équations (voir 
section 7.5, cas d’une loi discrète) : 

Dao (2 )p°(1 — p}?0-# = 0,975 

Do ()p°(1 — p}07* = 0,025 
Un logiciel de résolution d'équations donne pour la première p1 = 0,19 et la 
deuxième p2 = 0,64, qui sont les bornes de l’intervalle de confiance à 95%. L’in- 


tervalle asymptotique classique D + 1,96 BG?) de la section 7.4.5 donnerait, 
avec ici = 8/20 : [0,185;0,615]. Cet intervalle est toutefois assez approxima- 
tif du fait que la règle de validité donnée nÿ{1 — 9) > 12 n’est pas vérifiée (ici 
nÿ(1 — f) = 4,8). 


Exercice 7.6 


On sait que X est statistique exhaustive minimale. On a remarqué en section 
6.8 que la loi a posteriori du paramètre inconnu sachant les valeurs prises 
par l’échantillon ne dépend que de cette statistique. On conditionnera donc 
simplement sur l'événement (X = 7). Comme X = Nu, a), sa densité est 
fa _ 1 1 (x-u)? ee ; re , 

eh) = Varie exp{—> ln }. La densité de la loi à priori de y étant 


1 1 (H— ho)? 


Se nl 2 o8 


}, on à la loi a posteriori : 


1 É — k) Were) 


Tux = (4) — C EXP { 2 | o2/n oè 


où c est la constante qui normalise à une densité. L'expression entre crochets 


s'écrit : 
_ 2 2 
2(n 1 nT Ho T H6 
: 2 + ; 
à CG à) fe a) fn où 
n 1 mn 'he 06 & + o°lo/n . te 
= LL + CF = —— + C", 
0? | 52 Me éo?/n oÿ +o?/n 
0 cé To oë+o2/n L 


expression qui met en évidence la moyenne et la variance de la loi a posteriori 
de u, comme indiqué dans l’énoncé. On en déduit l’intervalle de probabilité 


0,95 pour x (ou, en d’autres termes, son IC bayésien à 95%) : 


oÿT + o?o/n 408 aäo?/n 
oë+o?/n oë +o?/n 
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Quand n — , on obtient æ pour le premier terme et, pour l’expression sous 


le radical, NU = soit l’IC classique. 


o? 
n+o?2/oû 
Dans l’approche bayésienne, le centre de l'intervalle est une pondération entre 


7 et Ho avec poids respectifs 0% et a?/n. La demi-largeur est plus petite car 


o2 
égale à 1,961/ 4} ose 


Exercice 7.7 


Dans les notations de la section 7.4.5, il suffit de montrer que (RL) tend 
vers 0 en probabilité, où B, = a. Or selon la loi des grands nombres, P} 


converge presque sûrement vers p (voir section 5.8.2) et a fortiori P, converge 


en probabilité vers p. Aïnsi P,(1 — B,), en tant que fonction continue de P,. 


converge en probabilité vers 4/p(1 — p), ce qui prouve le résultat. 


Exercices appliqués 


Exercice 7.8 


On calcule # = 8,10, s? = 0, 1018, s — 0,319 et on lit fs = 2,201. D'où : 


0,319 
IC = 8,10 + 2,201 7 = 8, 10 +0, 20. 
0,95 (4) 12 


Exercice 7.9 


Ona#= 5,4, s = 3,1 et on lit 4693) © 20,95 = 1,645. D'où : 


3,1 
IC, = 5,44 1,645 = 5,4 + 0,23 jours. 
0,90 (4) 500 J 


Pour le coût moyen, on obtient un IC à 90% en multipliant les bornes du 


précédent par 200, soit 1080 + 46 euros. 


Exercice 7.10 


Pour les 200 sinistres sélectionnés, on a une valeur moyenne de 9 944 euros avec 


un écart-type de 1901. Avec ei = 1,97 on obtient, pour la valeur moyenne 


des sinistres en cours, l’IC à 95% : 9944 +1, 9706 ou 9944 + 264,8 euros. 


Pour la valeur totale des sinistres en cours on a un IC à 95% de : 
11210 x 9944 + 11 210 x 264,8 © 111,5 + 3,0 millions d'euros. 
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Exercice 7.11 


Soit u le nombre moyen de mots par page du livre, on a, avec CLS = 2,093 : 


26 
IC, = 14900864 100 
0,95 (1) 75 


Pour le nombre total de mots, on obtient l’IC à 95% en multipliant par le 
nombre de pages, soit 97012 + 1923 ou environ [95 100, 98 900]. 


Exercice 7.12 


Soit 1 et 2 les consommations moyennes avec carburant traditionnel et carbu- 
rant nouveau respectivement. On cherche un IC sur 11 —u2. Sur les échantillons 
on à n1 = 10, %1 — 10,8, s1 — 0,21, n2 = 10, T2 = 10,3, s2 — 0,18. 
On peut appliquer la formule sous l’hypothèse de variances égales au vu des 
tailles d'échantillons et des écarts-types observés (voir section 7.4.3). On calcule 
d’abord la variance empirique pondérée : s : 3(9 x (0,21)? +9 x (0,18)?) = 
0,03825, d’où s, — 0,196. 


Avec CL = 1,734 on obtient : 


1 
ICoos(n — pa) = (10,8 — 10,3) £1,734 x 0,1964/2 + 25 © 0,5 20,15. 


Le gain peut être estimé entre 0,35 et 0,65 litres. 


Exercice 7.13 


On a p — 45/400 = 0,1125. Comme nÿ(1 — p) — 39,9 > 12 nous appliquons 


l’approximation gaussienne pour la proportion de pièces défectueuses. Avec 


20,995 = 2,97 On à : 
TCo,99(p) = 0, 1125 - 


à 2,57 /° 1125 x 0, 8875 


— 0,1125 + 0,04 
0 0,1125 + 0, 0406, 


ce qui donne pour le nombre total de pièces défectueuses dans le stock : 
1125+406 soit entre 720 et 1530 pièces environ. 
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Exercice 7.14 


On a p = 0,20. Comme nÿ(1—p) — 240 > 12, nous appliquons l’approximation 
gaussienne pour la proportion de personnes prévoyant d’acheter une voiture 
dans les douze prochains mois. Avec 26975 = 1,96 on a : 


[0,20 x 0, 80 
IC = 0,20 & 1,964) —— — + 
0,95 (P) , , 1500 0,20 + 0,032, 


soit entre 17% et 23% environ. 


Exercice 7.15 


Soit p1 et p2 les proportions de pièces défectueuses produites par le premier 
et le deuxième procédé respectivement. On cherche un IC sur p1 — p2. Sur les 
échantillons on à n1 — 1000, ÿ1 — 86/1000 = 0,086, n2 — 800, p2 — 92/800 — 
0,115. Comme np1(1 — p1) = 78,6 > 12 et npa(l — Pa) — 81,4 > 12 nous 
appliquons l’approximation gaussienne de la section 7.4.6. Avec 20975 = 1,96 


On à : 
ICo,95(p1 — p2) = (0,086 — 0,115) +1, o6/ 


= —0,029 + 0, 028, 


0,086 x 0,914 0,115 x 0,885 
1000 | 800 


soit entre —0,057 et —0,001. Cet intervalle semble indiquer que p1 est inférieur 


à po. 


Exercice 7.16 


Pour les 50 jours, on a observé un nombre total d'accidents égal à ne. Bi — 
OX21+1xX18+2x7+3 x 3+4 x 1 = 45 d’où une moyenne d’accident par 
jour observée de % = 0,90. On applique l’approximation gaussienne développée 
dans l’exemple 7.3. Avec 20,975 = 1,96 on a : 


ICo95 (À) = 0,90 + 1,964/ ee = 0,90 + 0, 26. 


soit un nombre moyen d’accident par jour entre 0,64 et 1,16. 


Notons que cet IC tient compte des spécificités du modèle de Poisson, à savoir 


que moyenne et variance sont égales à À. 
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Exercice 7.17 


On calcule 8? = 0,00461, s = 0,0679. Calculons d’abord l’IC pour la variance 
o? du taux (voir section 7.4.2), avec oo = 2,700 et Xi = 19,023 : 


9 x 0,00461 9 x 0, 00461 
19,023 ? 2,700 


ICo,s5(o°) = | ] = [0,00281, 0,01537] 


soit ICo,95(o) = [0,047, 0,124] ou, environ, [0,05, 0,12]. 


Corrigés des exercices 377 


Chapitre 8 : Estimation 
non paramétrique et estimation 


fonctionnelle 


Exercice 8.1 


Dans EXCEL on génère en première colonne 200 nombres au hasard dans [0,1] 
avec la fonction ALEA(). En deuxième colonne on applique à la première co- 
lonne la fonction EXP(LOI.NORMALE.STANDARD.INVERSE/(-)) ou directe- 
ment LOI.LOGNORMALE.INVERSE(- ; 0 ; 1), pour obtenir 200 observations 
issues de la loi LNW(0 ; 1) selon le principe défini en section 4.3. 


Nous avons effectué cette opération et trouvé une médiane des 200 observations 
égale à 1,073 qui est une estimation ponctuelle de la vraie médiane {1 laquelle 
est ici égale à e° = 1. En effet, si Ç, est le quantile d’ordre q de la loi W(0 ; 1), eca 
est le quantile d’ordre q de la loi LW(0 ; 1) puisque P(Z < q) = P(e7 < el) = q 
où Z 2 N(0;1) et eZ > LN(0;1). 


Comme vu en section 8.2 on obtient un IC à 95% pour j avec les l1-ième et 
l> + 1-ième statistiques d'ordre réalisées dans l’échantillon, où l est tel que 
P(N > li) > 0,975 et > = n — li, avec N > B(200: 0,5). En calculant les 
probabilités de cette loi dans EXCEL pour l’ensemble des valeurs possibles on 
trouve que P(86 < N°) = 0,980 et P(87 < N°) = 0,972 donc li = 86 et l = 114. 
Dans notre échantillon, les 86-ième et 115-ième statistiques d’ordre ont pris, 
respectivement, les valeurs 0,923 et 1,230 d'où ZCo,95(4) = [0,923;1,230]. Cet 


intervalle couvre bien la vraie valeur. 


Pour %6,90, le quantile d’ordre 0,90, on recourt de même à la v.a. N*, nombre 
d'observations inférieures ou égales à Zo,90 qui suit une loi B(200; 0,90). On 
doit chercher l* et 15 tels que P(X < N* < 15) > 0,95. On trouve, en cal- 
culant les probabilités de cette loi dans EXCEL, P(171 < N*) — 0,984 et 
P(172 < N*) = 0,973 donc on prendra l* = 171. Comme P(N* < 187) = 
0,968 on a P(171 < N* < 187) — 0,968 — 0,016 — 0,952. Dans notre 
échantillon les 171-ième et 188-ième statistiques d'ordre ont pris, respective- 
ment, les valeurs 3,29 et 4,48 d’où TC 95 (4) = [3,29;4,48]. Cet intervalle couvre 
bien la vraie valeur égale à el 28 — 3,60. L'estimation ponctuelle était donnée 


par le quantile empirique d’ordre 0,90 soit 3,94 pour notre échantillon. 
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Exercice 8.2 


Pour les 12 valeurs données, on obtient 7 = 1,10 et s = 1,32. 

On calcule les valeurs s_; = V# er —7T_;)? et on obtient : 
1,34 1,34 1,34 1,34 1,36 1,37 1,38 1,38 1,38 1,36 1,36 0,71. 

Puis on calcule les pseudo-valeurs 5,; — 125 — 115_; et on obtient : 
1,05 1,05 1,05 1,05 0,82 0,77 0,62 0,61 0,63 0,89 0,89 8,05. 


La moyenne des pseudo-valeurs est égale à 1,46 ce qui donne l’estimation par 


jackknife de o. On note qu’elle est assez différente de l’estimation usuelle par 
s —1,32 ce qui s'explique par l’incidence forte de la dernière valeur pour un 
nombre faible d'observations. 


Comme l’écart-type des pseudo-valeurs est syx —2,08 on obtient : 


TCo,ss(o) = 4666075 54e 1,46 + th 975 Mc) 


soit, avec #5/075 —2,201, l'intervalle [0,14 ; 2,78] qui est assez large en raison du 
faible nombre d'observations. 

Note : Les résultats ont été calculés avec la précision d'EXCEL mais sont 
indiqués arrondis à la deuxième décimale. 


Exercice 8.3 


Or : ñ n n 
= — 1 1 1 1 1 
X_;—-X — X — X; = — X; 
n—1l > Ton > d (- 1 :) > J 1 
VE j=1 = 
1 7 1 
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deb EL ; 
SF, = (Xi - X) + ——(X - X;) = (Xi -X}°. 
nm 


Ainsi l’estimateur du Jackknife qui est la moyenne des 52, donne 52 qui est 


sans biais. Cela corrobore la proposition 8.2 : le biais de 52 qui est ee est 


éliminé par la procédure Jackknife. 


Exercice 8.4 


OnaX= 1 )iXiet Xi LD je X5. Donc: 


Les pseudo-valeurs sont ainsi identiques aux valeurs mêmes et l’estimateur du 
jackknife reste X. 


Exercice 8.5 


Considérons la double suite --- ,ao — 2h, ao — h,ao,ao + k,ao + 2h,--- qui 
définit une grille d’intervalles de largeur h pour l’histogramme, pour laquelle 
nous considérerons le point ag comme point de positionnement. Soit fa (x; ao) la 
valeur de l’histogramme au point +. Nous pouvons écrire fax: &o) en exprimant 
le comptage des x; situés dans le même intervalle que x (pour lever l'ambiguïté 
aux limites des intervalles, nous prendrons des intervalles ouverts à droite), ce 


qui donne la double somme comme suit : 


= 


1 nm 
fat; ao) = ar De. ÿ Fenetre) dns) 
i=1 keZ 


Le Li — Q0 ZT — &0 
= a 22 2 Toul no lou —k) 


Nous considérons maintenant f, (x; ao) correspondant à la valeur moyenne ob- 


tenue en faisant glisser uniformément la grille du positionnement ag à @o + À : 


_ LAURE Ti —t æ—t) 
Peso) = 5 [DE Don — Dé 
ao i=1 keZ 
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soit, en posant u = 22, 2; — 


Tia _— T—ao FES A : 
F,2= 5" et en permutant l'intégration et 


la première sommation : 
f x; ao) DIE ÿ Lo1(zi — # — u)To11(2 — k — u)du. 
0 kez 


En remarquant que 1j611(2: — # — u) est égal à 1, si et seulement si k = [z;] 
(la partie entière de z;) quand u € [0, z; — [:;]] et si et seulement k = [z;] — 1 
quand u € [2; — [x], 1], on a : 


_ zizi] 1 
f,(: ao) DIE to,11( G-bi-wdu+ | A PE 


En effectuant le changement de variable vu = 2 — [z;] — u dans la première 


intégrale et vu = z — [z;] + 1 — u, on obtient : 


Z—2zi+1l 


Fi (x; ao) HE Toa(v)dv. 


En examinant les différentes positions de [0, 1] par rapport à [2—2;,2—2;+1|, 


on arrive finalement à : 


À, (a; ao) = > le ail] Hoat(le — il) 


RE 2— x) = -HDr(SS) 


où KQu) = (1— {ul)ljo1ç(lu|) est le noyau triangulaire. 


| 


Comme on s’y attendait, f,(æ: ao) ne dépend pas de l’origine ao. 


Exercice 8.6 


Dans EXCEL, on génère en première colonne 50 nombres au hasard dans [0,1] 
avec la fonction ALEA(). En deuxième colonne on applique à la première co- 
lonne la fonction LOINORMALE.STANDARD.INVERSE(-). Puis on applique 
la fonction biweight avec À = 1 soit 15(1—x?)? pour les valeurs x € C 1,1] et 0 
sinon. Alors la moyenne de ces poids est l’estimation pour f(0) — = 0,399. 
L'’espérance mathématique de cet estimateur est (voir section 8.5.2) : 


pt 

15 1 z2 

t)dt dt | (1-2?) e_ 7 dx © 0,369, 
PAT 
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valeur obtenue via un logiciel de calcul mathématique. Le biais est 0,369—0,399 
— 0,030. Il est évidemment négatif puisqu'on pondère des observations prises 
au voisinage d’un maximum. 

Sur une simulation de 50 observations on doit trouver une estimation avec 
un écart à la vraie valeur pas trop éloigné de 0,03 (on peut éventuellement 


augmenter la taille de l'échantillon pour le vérifier plus précisément). 


Exercice 8.7 


On procède comme à l’exercice précédent à ceci près que la fonction de poids est 


R(1—(#)?)? pour les x € [-h,h], avec les différentes valeurs de h proposées. 


La valeur de À optimale asymptotiquement en un point x est donnée en 
section 8.5.2 : 


’ | TOO lun 
LG TR eK (au 


Ici on a x = 0, f(0) — 7 0,399, (0) = —-1 et : 


[RGP du = (5) 'o-uwra- (5) [aa + 60 an + ua 


2 
-2() É 8 F+5]eonss, 


HOT. Ÿ (u? = Qué + u°)du 2 ee = 0,1429 
L ” 16/, ST6 SH A TS 


d’où finalement opt —1,694 n°75. 

Pour n = 50 on trouve hop —0,775. Observez-vous l’estimation la plus proche 
de = 0,399 pour h —0,75? Augmentez éventuellement la taille de l’échantillon 
pour vérifier empiriquement que la meilleure estimation est celle obtenue avec 
la valeur de h la plus proche de h,,4:. Par exemple, pour n = 500, ho — 
0,49. Notons que la largeur de fenêtre reste assez large même pour une taille 
d’échantillon assez élevée. 


Exercice 8.8 
Rappelons l’expression asymptotique de l’eqim donnée en section 8.5.2. 
- F h1 2 2 2 ° L 2 
eqim | fn) © Fa [f" (x) dx u*K{u)du| +— | [K(u)]° du 
R R 


nh Jr 
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En la dérivant par rapport à h, on obtient une expression qui s’annule pour : 


n=15, 


à =| Ja UK Cu) du F 
7 LA") [JR 2K(u)du” 


et en remplaçant dans l’eqim : 


eqim EF). = : Lf a fera)" urcentaf" ne à 


Le facteur dépendant uniquement du noyau que l’on peut souhaiter minimiser 


4 
est v(K) = | fe [K(u)® du]? [Ja u?K(u)du] 
Pour le noyau biweight on a calculé à l'exercice précédent J, [K (u)]° du = 
0,7143 et f, u?K(u)du = 0,1429 ce qui donne v(K) = 0,351. Pour le noyau de 
Rosenblatt on trouve de même v(K) = 0,369 et pour le meilleur noyau, celui 


2 
5 


d'Epanechnikov, v(K) — 0,349. On constate qu’en termes d’approximation 
asymptotique les différences sont faibles. En particulier le noyau biweïight est 
très proche de celui d’Epanechnikov, avec l’avantage d’être partout dérivable. 


Exercice 8.9 


On peut simplement appliquer les résultats de l’exercice précédent concernant 
le noyau biweight : 1 
0,7143 


( 2) (0, 1429)? 


CE 


n°5 278on 


h = 


a 5 4 
5 


eaim (F),, = eu | [ur toae| n° 


ne 
5 30° 5 

= — 1 ne a 
AUS (2) ‘ 


En intégrant egm (Ft) re (f(x) + f(x)/(nh) donnée en section 8.5.2 


4 


æ0,3210 In 5. 


QT 


12 
pour l’histogramme au point x, on obtient : 


a = fe 1 
eqim( fn) = | egm (f(x) dx 5 J Lf'(x)l dx + —. 
R 12 R nh 
La dérivée par rapport à h de cette expression s’annule pour : 


—1/3 
hopt = 61/3 ul La del HE, 
R 


ce qui donne pour la loi W(y, a?) : 
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Ropt = (24VT)5 on l/38 + 349on7 1/3. 


En remplaçant dans l'expression de eqim(fn) ci-dessus on vérifie aisément que 
eqim( fn )opt = 0,430 o— n_$ 

Pour n = 500, par exemple, cette erreur vaut 6,83x10-%o-! contre 2,22x10-%0-1 
pour le biweight, soit environ trois fois plus. 


Exercice 8.10 


HA RIRE Ce 


= Hu) h f(x — uh)du = Hu) d(—-F(x — uh)) 


— 0° — 00 


+oo 
= [-H(u)F(e — uh]t® + JA FD ee Sd 


car H'(u) = K(u). Le premier terme est nul et, pour le deuxième, développons 
F(x —uh) au voisinage de x : 


+00 212 


u‘h 


f'(x) + o(h?)| du 


E [Fa (a)] z K(u) LP) — uhf(x) + 


— OO 


2 +00 
= F(x) + D P'(a) J u? K(u)du + o(h?) 


en utilisant la symétrie du noyau. Notons qu’en raison de cette propriété on 


peut remplacer o(h?) par o(h*). 
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Chapitre 9 : Tests d’hypothèses 


paramétriques 


Exercice 9.1 


La fonction de vraisemblance est L(X) = [5 f(xi; À) = Xe \Liniti, Le 
rapport de vraisemblance (RV) est : 


1 mu-DÈ (er 


i=1 


On rejette Ho : À = 1/2 (vs. Hi : À = 1) si 14 < ka, ce qui équivaut à 
Du < k!,. Sous Ho D, Xi > L'(n, D) = x?(2n). 


Comme P(3, X; < ed — à) = 0,05 on rejette H, au niveau 0,05 si 


n 2 (2n) 
Dir Ti < X0,05 


Exercice 9.2 


a) Dans un processus de Bernoulli X1 + G(p) est le nombre d’échecs avant le 
premier succès. Les v.a. X1 et X2 étant indépendantes, X1 + X2 peut être 
vue comme le nombre d’échecs avant le deuxième succès et ainsi de suite 
X1+X2+...+X, peut-être vue comme le nombre d'échecs avant le n-ième 
succès et ainsi >}, X; > BN(n, p). 

b) La fonction de vraisemblance de p est L(p) = p"(1—p)}i=1*, n étant connu. 
Pour le test considéré le RV est : 


LD L (1) nn 
LL 
et me < ka équivaut à 377, vi < k. 
o) T = EE, Xi > BN(4,1) sous Ho. Alors P(T = 0) = (3) (1) (2)° = 
0,0123, P(T = 1) = (f)(4)" (2) = 0,0329 et P(T = 2) = (5) (2)° (2)? = 


0,0549. On à donc un test conservateur de niveau 0,05 en rejetant H, si 
Dit Ti 1. 

d) La puissance du test est donnée par P(T = 1|p = ?) = (3) +4(4)4 (3) = 
0,461. 
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Exercice 9.3 


Le risque de première espèce est a = P(X > 5+ 73) avec X > N(5; 1). Donc 
a= P(ÈES )= P(Z > 1) où Z < W(0;1), d’où a = 0,159. 
Pour y quelconque X > Wu, À) et 


ce 
PRÉ TA 
et la fonction puissance, définie pour y > 5, est h(u) = 1—®(/n(5—u)+1) où 
® est la fonction de répartition de la loi normale centrée-réduite. Cette fonction 
croît de 0,159 à 1. 


P(X > 5+ +1) = P(Z > Vn(5 — à) +1) 


Exercice 9.4 


Écrivons la fonction de densité f(x; 0) = a Th, +o[(x) exp{—(8 + 1) In x}, .soit 
la forme exponentielle avec c(9) = —(0 + 1). Or la proposition 9.5 indique que 
le RV est monotone si la fonction c(4) est monotone. Pour 8 < 8’, L(8)/L(@') — 
(a? /6'a°")" exp{(6! — 6) 3, mx;} croît en fonction de la statistique exhaus- 
tive minimale (ou plutôt sa réalisation) 5°, Inx:. 


Pour H, : 0 > 65 vs. H3 : 0 < 60 le test UPP consiste à rejeter H, si 
Di ma; > ka (cas N° 3 de la section 9.4.2). 


Application : 

L'existence de la moyenne 37 9 ;suppose que 0 > 1. L'hypothèse 7 1 < 2 équivaut 
à 0 > 2. Or le test UPP pour H:0>2 vs. H1:1<0<2 ie à rejeter 
Ho si D Inx; > k4. La fonction de répartition de X suivant la loi de Pareto 
avec a = 1 étant, au point x, 1 — x7° pour x > 1, celle de In X au point x est 
P(InX <zx)=P(X <e*)=1-—-e"® sie > 1, soit x > 0. Donc In X + €(6) 
et >;_,ImX; x l'(n,0). 

Sous H5 D, mX; + l'(n,2). Soit +0,95 le quantile d'ordre 0,95 de cette loi, 
alors le test UPP consiste à rejeter Ho au niveau a = 0,05 si 5%, Inx; > 0,95. 


Exercice 9.5 


On a f(x;0) = 310,0 (€) et : 
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lu 1 
L(0) = = [[ oo(ri) = To. (r())Ho.+s] (1). 
() = 0 


Pour 0 < 9 < 0’, L(8)/L(8") est nul pour x(,) > 0 et vaut (9//0)" > 0 pour 
0 < x) < 0 (le RV n'est pas défini pour æ{(,) < 0). Donc le RV est non 


croissant en fonction de x(). 


Soit, par exemple, le test Ho : 0 < 60 vs. Hi : 0 > 6 (cas N° 2 de la section 
9.4.2), alors le test UPP consiste à rejeter H, si T(n) > k. Pour un niveau @ 
on choisit k tel que, sous Ho, P(X() > k) = à. Or, sous Ho, la fonction de 


répartition de X(,) au point x est (&) , donc P(X (5) > k) = 1— (&) . En 


résolvant 1 — (&) = a, on trouve # = @6(1 — a)!/". 


Exercice 9.6 


On est ici dans une situation où l’on fait une seule observation. X est donc 
statistique exhaustive minimale. Pour une réalisation x, on a : 


(29) () 


si M entier dans [n, N] et 0 sinon (nous envisageons le cas réaliste où M et 
N — M sont supérieurs à n sinon il y a lieu de tenir compte de toutes les 
situations autres). D'où : 


por e CEE 
500 Ce) 
_(M+DUM=a)(N-M=-DUN-M-n+ax)  (M+IN-M-n+x) 
(M+1-zx)MUN-M-1-n+z){N - M)! (M+1-z\(N-M) 


qui est une fonction croissante de x. Cela est vrai également pour EE = 


FH comme produit de deux fonctions croissantes positives et, de 


L(M' 5 2 : 
proche en proche, pour el avec M' > M. Notons que les résultats établis 


en section 9.4.2 sont fondés sur le rapport _. avec 0 < 0”, lequel est donc ici 


décroissant. 


Pour tester H, : M > Mo vs. H3 : M < Mo nous sommes dans le cas 4 
décrit en section 9.4.2 et le test UPP consiste à rejeter H5 si x < k, ce qui est 
intuitif. Pour un risque de première espèce a choisi, soit il existe — cas très peu 
vraisemblable — un entier c, tel que, pour M = Mo, P(X <c,)=aetona 


un test exactement de niveau a en rejetant si x < c,, soit le quantile d’ordre « 
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est une interpolation entre un entier c et c + 1, auquel cas on devra rejeter de 
façon conservatrice pour æ < c, ce qui équivaut encore à x < c4 avec la valeur 


non entière d’interpolation. 


Exercice 9.7 


Soit le rejet de H, pour une observation n’appartenant pas à [c1,c2]. On a pour 
un À donné : 
PA(X & [e1, cl) = PA(X < a) + PA(X > @)=1-e 4 +e-/@, Il s’agit 


de résoudre en (c1,c2) le système suivant : 


{ 1—e- a +e-he za 


cie 0€ — ce 1002 —Ù 


la deuxième équation correspondant à la condition d'annulation de la dérivée 
en À de 1—e- 4 +e-\@, comme indiqué dans la note 9.3. 
Supposons que le risque soit équiréparti sur les deux extrémités. Alors on aurait 
1—e 04 = ee = %, ou Àoc = —In(i — $) et oc = —-In$. Ce qui 
donnerait par la deuxième équation : 

Àoc1(1 — 5) — oc = 0 = - MS (1 5)In(1 S)=0. 


Or on peut vérifier que la fonction In x — (1—x)ln(1 —x) ne s’annule pas sur 


10, 2 et l’équirépartition n’est donc pas possible pour @ €]0,1{. 


Exemple : 0 = 1, à = 0,10 donnent la répartition 1 — e- 0% — 0,081 et 
e7 #02 = (,019. 


Exercice 9.8 


On est là dans un cas particulier de l’exemple 9.8. La fonction de vraisemblance 
est maximisée, au dénominateur du RVG, pour &MV = %. Pour le numérateur 
on doit la maximiser, pour y dans [1,12], ce qui revient à minimiser u(u —2T). 


SiT € [1,2], le minimum est atteint pour u = T, le RVG vaut 1 et on accepte 


toujours. 

Si Æ < y, le minimum est atteint pour y —= uw et le RVG vaut alors 
A & es 

exp{— 5% (u1 —T)°}. On rejette donc Ho pour En > bn, soit 57h < —k. 


De même si T > u2 on rejette si me > ko. 
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Par symétrie on prend k1 = k2 = k avec k tel que : 


pour tout u € [i, ol, P, (EE < x) +P, (EE > x) < à 
Li A < co +) 8 (re Et) se 


On peut aisément vérifier que la somme de ces probabilités est identique pour 
u = Ju et pour u = 2. En admettant que le maximum est atteint pour ces 
valeurs, on doit trouver k tel que : 

D(—-k) +1 GET tk) = 4 DE nl P(—k) = 1 — à, où D 
est la fonction de répartition de la loi W(0;1). 


Application : 
Il faut trouver k tel que ®(/n+k)—D(-k) = 0,95. En prenant k —1,645 on a 
D(—k) = 0,05 et pour n > 2, E(/n+k) = 1. On donne ci-après, pour n = 50, 
le graphe de : 


hu) = Pa (Z < Vn(4— y) —1,645) + P, (Z > Vn(5 — y) + 1,645) 
= P(ÿn(4 — y) — 1,645) +1 — P(Vn(5 — u) + 1,645). 


Q 
— 
— © 
2 © 
[Oo] 
Len 
æ © 
TD Oo 
oO 
= 
5 + 
© © 
8 
& 
[æ) 
o 
[æ] 


3.0 3.5 4.0 4.5 5.0 5.5 6.0 


Figure 9.4 - Fonction de puissance et de risque de première espèce 


Pour tester Ho : up = io vs. Hi : h Æ lo appliquons les résultats précédents en 
prenant H1 = 2 = Lo. 
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. T—p SE T—H, <. 
On rejette pour Le —k (cas où 7 < Jo) ou FR k (cas où 7 > io) où 


k est tel que P(—k) +1 — P(k) — à, soit encore 1 — P(k) — $ ou P(k) — 1-5, 
d’où k — 1-2. Cela est le test classique donné en section 9.7.1 et fondé sur le 


fait que, sous Ho, EH mr N(0;1). 


= = 2 
On a vu ci-dessus que À, = exp{— 5 (do — X)?}, donc —21n A, — (&) 
Cette variable aléatoire suit une loi x?(1) comme carré d’une gaussienne centrée- 


réduite. Le théorème asymptotique 9.2 est en fait vérifié pour tout n ici. 


Exercice 9.9 


On a L()) = 'e-"#, prenant son maximum pour AMV = À, soit LAMY) = 
(&)-"e-". Pour tester Ho : À = o vs. H1 : À £ o le RVG est L()o)/L(AMV) = 
(Xæ)"e-"00%- 1), Appliquant le théorème 9.2, on rejettera Hg au niveau a si 
—21n ((Xor)"e-"008-1) > LPO  9n[lo7 — 1 — In(dor)] > x? D. 


(07 


Application : 


Pour Ào = 1/4 et n = 30, la règle de rejet avec à = 0,05 est ?—1-In? > %%. 


Or la fonction g(u) = u — 1 —In uw décroît de +oo à 0 quand x varie de 0 à 1 et 


croît ensuite de 0 à +oo. Donc g(u) = c admet deux solutions pour c > 0. Pour 


g(u) = st, on trouve, par approximations successives, les solutions u1 = 0,68 


et u2 © 1,40. On sera ainsi amené à rejeter H, si x <2,72 ou 7 >5,60. 


Exercice 9.10 


On a L(a) = 2a" D, xiexp{—a D, x?}. Déterminons l’estimateur du MV 
de à : 
mL(a)=nma-aÿ,x?+1n(2" 3% ai), EmL(a) = 2-5 2, 


: «a? ZSMV — 2 
qui s’annule pour & MES 


Le RVG pour tester H : a = 1 vs. H; : a Æ 1 est : 


L(1) 2) natiexpl— Dit) = #) epn-3a#} 


L(GMV)  2(n/} im) ii miexp{-n} 


Pour la statistique RVG, on remplace x; par X; dans cette expression. 
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Exercice 9.11 


: 0+1 
On a L(6) = (5) (I 2) si æ > a. Déterminons l’estimateur du MV de 
0 : 


In L(9) =nin (5) -(8+1)3 M$), 35mL(0) = 5-3; m(S), 


qui s’annule pour 0MV = n/ Dm(#). 


Le logarithme du RVG pour tester H5 : 0 =3 vs. H1:0 23 est : 
Ti guv = BL. 
bn AVG = nn (} }-2n6 =) El 3 ] et 403 
“ni () + Re De ce 
QMv 


et on rejette Ho au niveau 0,05 si -21n RVG > x$ (4) = 3,84. 


Application : 

Pour n = 30 et es 1x = 31on a >}_,In(%) = 31 — 30In2 —10,206, 
guv —2,9396 et —21n RVG = 0,0125. Donc on accepte H5. 

Note : Ho spécifie une valeur proche de guv. 


Exercice 9.12 


One LOb= (TER AMV 2 % et, pour tester Ho : À = o vs. 
H; : À À 0 : 


—nÀo \nT 
RVG = Es —21n RVG = 2n{)o — T +T(nT — In Ào)]. 


ere ? 
Étudions la fonction g(u) — À9 — u + u(Inu — In Xo)pour u €]0,+oof. On a 
g'{u) = Inu — In À et est négative pour u < Ào, positive pour u > Ào. Quand 
u — 0, g(u) — Ào et quand u — +oo, g(u) — +oo. la fonction décroît donc 
de À9 à 0 à gauche de À, et croît de 0 à + à droite. L’inéquation g(u) > k 
admet donc comme solutions les valeurs de u à l'extérieur de [c1,c2] où 
0 < «1 < do < c2 si k €]0, ol et à l'extérieur de [0, c2] où do < c2 si k > Ào. 


Étant donné que le rejet de H se fait (approximativement) au niveau a quand 
—2In RVG > x 0, c’est-à-dire g(T) > se a il y a deux cas de figure. Soit 


a ? 
2 Xi < 0 et le rejet est fondé sur un intervalle de la forme [c1,c2|, soit 


— 


Xi 0 > o et il est fondé sur un intervalle de la forme [0,c2]. Ce dernier 
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cas se présente si Ào est trop petit compte tenu de la taille d’échantillon et du 
niveau « souhaité pour pouvoir rejeter sur des valeurs de x entre 0 et Ào. Dans 
le premier cas, on a la relation —c1 + c1(1n €; — In Àg) = —c2 + co(in c> — In Ào) 


résultant du fait que g(c1) = g(co). 


Application : 

Pour lo = 5, n = 10 et à = 0,05, on a xÿd5) — 3,84 et on rejette Ho si 
g(&) > 0,192. Par un logiciel mathématique (ou par approximations succes- 
sives) on trouve pour g(u) = 0,192, soit 5 — u + u(Inu —In5) = 0,192, les 
solutions c1 = 3,68 et c> = 6,45. On rejette donc Hg si Vi z; < 36,8 ou 
D x; > 64,5. Comme D x; est entier, on rejettera de façon conservatrice 
He 80 OÙ NS > 04 


On peut trouver le niveau exact de la règle ci-dessus dans la mesure où 
Di Xi © P(nho) sous Ho. On trouve, par exemple via EXCEL : 

P(S 1 Xi < 36) = 0,0238 et P(D TX: > 65) = 0,0236 
d’où le niveau exact de 0,0474. 


Pour randomiser, changeons la borne supérieure pour laquelle il faudrait at- 
teindre une probabilité de 0,0262 pour avoir précisément « = 0,05. Comme 
P(5;_, Xi > 64) = 0,0318 on choisit la limite 65 avec probabilité p et 64 avec 
probabilité 1 — p où px0,0236+(1 — p)x0,0318—0,0262, soit p —0,683. 


Exercice 9.13 


Soit à tester Ho : u = lo vs. Hi : du Æ Lo avec un échantillon issu de la loi 
N{u,0?), a? étant inconnu. D’une façon générale, on a : 


Lu,o?) = (2n0?) À expf- ss (ai 0°}. 


Comme (02) V = (x, 5?) le dénominateur du RVG est : 
n 2 3 
Lee te — 3) | es 
nm 


Le numérateur est la maximisation de L(u,0?) sur O0 = {(uo0,0°),a? > 0}, 
soit : En jh est 
supL(y, o?) = sup (2r0*) ? exp{—-—— De — lo)” } 
On o2 20 = 


= É Di (T E er] Re e7?. 


n 
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: 2 É De n : 2 . He 
car le sup sur o° est atteint pour o° = +); (2; — Ho)”. Ainsi : 


_ 2169) _ [DiiGi-m}l 
Lo supL(u,0?) | Dirtri — 7)? | 


60 


Or at DE Lo)” T Pal — T)° +n(r — Lo)”, d’où : 


RVG = L AE = + Ent) 


D lu — TZ 82 
Le test du RVG consiste à rejeter H, si : 
(æ — lo) + (z LE Lo) / T— Ho 2 
1 k & k — k 
| > = HA TA |” 


ce qui est la forme du test de Student. En revanche la région de rejet, pour un 
a fixé, donnée par le résultat asymptotique sur le RVG ne coïncide pas avec 
celle du test de Student. 


Exercices appliqués 


Exercice 9.14 


La question est de savoir si l’on peut admettre l'efficacité de la nouvelle fabri- 
cation (4 > 64000) avec un risque d’erreur contrôlé. On doit donc tester : 

Ho : u < 64000 vs. Hi; : u > 64000. 
Soit X la moyenne d’un échantillon de taille 10 de pneus de nouvelle fabrication. 


Sous Ho (u = 64000), Z = run ae (030) On doit rejeter Ho au 


niveau de risque a = 0,05 si l’on observe une valeur z de Z supérieure à 


20,95 — 1,645. 
67 300 —64 000 


se 2 pe ; 
c e € ZT —= OÙ 2 = = 
Dans l'expérience effectuée on a observé 67 300, s 8000/V10 


1,30 et on accepte H5. La méthode ne peut être jugée efficace. 


Calculons la puissance du test pour une valeur y — 65000. Dans cette alterna- 


8000/VI0 aps oz N(0;1) et, selon la règle de décision utilisée, la 


probabilité de rejeter H, est : 


tive on a donc 


X — 64000 X — 65000 1000 
P | > 1,645 | = P| 2 > 1,645 — > | = P(Z > 1,25) — 0,106. 
8000/10 8000/10 8000/,/10) 


De façon plus générale, pour toute valeur de y, la probabilité de rejet est : 


x — 64 — 64 
ep es a. one ee D GR fe ne 0on 
8000/10 8000/,/10) 8000/,/10) 
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où ® est la fonction de répartition de la loi W(0;1). Pour u — 67000 on 
trouve h(67000) = 0,323, pour u — 69000 on trouve h(69000) — 0,629, pour 
u = 71000 on trouve h(71 000) = 0, 869. 

Le graphe de la fonction est analogue celui de l’exemple 9.5 : la courbe part 
de 0,05 pour y = 64000 et croît comme l’indiquent les calculs ci-dessus. 


Exercice 9.15 


On teste Ho : u — 69800 vs. H1 : 1 Æ 69800. Sous Ho, T — I ve 
/V6 approx 


t(499) = NW(0;1)}. T a pris la valeur 507800 = —2,27. On a 


P(T < —2,27) = 0,012 et s’agissant d’un test bilatéral la P-valeur est 0,024 


(ceci pour être en cohérence avec la notion de risque @). 


Exercice 9.16 


On teste Ho : u > 5 vs. H; : p < 5, l'alternative A; correspondant à l’affirma- 
tion (eau non potable) dont le risque doit être contrôlé. Sous Ho, 


T=XS5 +; {(5) et l'on doit rejeter Ho au niveau de risque a si T prend 
S/V6 approx 


une valeur t < 45) = SE 


—@" 


On a observé # = 4,9567 et s = 0, 1401, soit t = EEE = —0,757. Pour 


a = 0,05 #0 = —2,105 et il n’y a donc pas lieu de rejeter H4. En d’autres 
termes on ne peut affirmer que l’eau n’est pas potable. 


Exercice 9.17 


L'hypothèse à tester est que le temps moyen est resté identique, soit : 
Ho : p = 42,5 vs. H: : pu # 42,5. 
On rejettera Ho au niveau 0,05 sit = TEE € [607 torors] Soit [2,045 :2,045]. 


: __ 39-425 _ ; : 
Icionat= Sa Van— 2,34 et l’on rejette Ho. 
Pour a = 0,01 on a tu — 2,756 et il n’est pas possible de rejeter H, à ce 


niveau de risque plus faible. 
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Exercice 9.18 


L'hypothèse à tester est 20 <0,1, ce qui équivaut à Ho : a? < 0,0025 vs. Hi : 


o? > 0,0025. On rejettera Ho au niveau 0,05 si q — Se > re = 11,1 et 
2 (5) _ 


0, 
au niveau 0,01 si q > X699 — 15,1 (voir section 9.7.2). 


Sur la base des observations on trouve 8? — 0,009216, soit q — 18,43 ce qui 
nous permet de rejeter H4 au niveau 0,01. Note : 18,43 est le quantile 0,9975 
de la loi y2(5) — dans EXCEL 1-LOI.KHIDEUX(18,43 ; 5) — et la P-valeur est 
donc 0,0025. 


Exercice 9.19 


On doit tester Ho : p < 0,04 vs. H3 : p > 0,04 où p est la probabilité qu’une 
naissance soit prématurée dans la région considérée. On suppose — ce qui est 
assez réaliste — que les observations effectuées sont indépendantes. Comme 
npo = 1243 X0,04 > 5 et aussi n(1—po) > 5 on peut appliquer l’approximation 


gaussienne décrite en section 9.7.5. On rejettera Ho au niveau a si : 


p — 0,04 
= —————— > 2], 
(0,04) (0,96) 
1243 


où z1-4 est le quantile d’ordre 1 — à de la loi W(0;1). 


On trouve ici, avec p — 72/1243 —0,05792, z = 3,22 ce qui correspond à une 
P-valeur de 0,0006 (voir la table W(0 ;1)). On peut donc rejeter au moins au 
niveau 0,001. On peut donc affirmer avec un risque très faible d’erreur que la 
proportion (théorique) de prématurés est plus élevée dans cette région que dans 
le nord de l'Italie en général. 


Au niveau 0,01 on est amené à rejeter si z > 20,99 = 2,33 ce qui équivaut à une 
réalisation 9 > 0,0530 de P,, la proportion de prématurés dans un échantillon 
aléatoire de taille n (ici n = 1243) avec probabilité p qu’un nouveau né soit 
prématuré à chaque naissance. Pour calculer la puissance pour une valeur p 
donnée, supérieure à 0,04, il faut calculer la probabilité d’avoir une réalisation 
de P, supérieure à 0,053. La fonction puissance est donc : 


0,053 — 0,053 — 
h(p) = P(P, > 0,053) = P(Z > — PE ES 0 Re Ê 
p(i—p) p(i—p) 
1243 1243 
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pour p > 0,04, où Z x W(0;1) et ® est la fonction de répartition de cette 
loi. Le graphe de h(p) est une courbe croissante partant de 0,01 pour p = 0,04 
(point non inclus) jusqu’à 1 quand p = 1. En fait h(p) se rapproche très vite 
de 1 puisqu'elle dépasse déjà 0,999 pour p = 0,08. Cela est à relier à la taille 
d’échantillon élevée. 


Exercice 9.20 


On doit tester Ho : p < 0,04 vs. H; : p > 0,04 où p est la proportion de pièces 
défectueuses dan le lot. On applique l’approximation gaussienne car npo = 
800 x 0,04 > 5 et n(1 — po) = 800 x 0,96 > 5. 

On a trouvé ÿ = 40/800 = 0,05, z = 005-004 — 1,44 ce qui correspond à 


V (0,04)(0,96) 
800 
une P-valeur de 0,0749 et ne suffit pas pour rejeter HQ ne serait-ce qu’au niveau 


0,05 (qui aurait nécessité une valeur de z supérieure à 1,645). 


Exercice 9.21 


Soit 1 la moyenne de taux de plomb des filles du primaire dans la ville et 2 
celle des garçons. On se pose la question de savoir si l’on peut, à faible risque 
d'erreur, considérer qu’il y à une différence en moyenne, sans s'intéresser au 
sens de cette différence. On testera donc Ho : 1 = jo vs. Hi : ji Æ 2 et on 
rejettera Ho au niveau « (voir section 9.7.3) si : 

= T1 — T2 d | p{ritna-2) (nitna—2) 


1 1 Fe He 
SpV/ ni n3 


où s 


2 _ (nai —1)sf + (n2 — 1)s3 
PP Ni + N2 — 2 


avec n1 = 32 et n2 — 35. Les tailles d'échantillons sont supérieures à 30 et donc 
suffisantes pour appliquer la procédure, mais nous devons faire l’hypothèse 
supplémentaire (au sens de condition à remplir) que 0? = o2. Toutefois cette 
condition n’est pas cruciale comme on l’a indiqué en section 9.7.3 dans la mesure 
où les tailles d'échantillons sont proches. Qui plus est, les variances empiriques 


semblent indiquer que les variances théoriques sont du même ordre. On a : 
2 _ 31 X 3,39 + 34 x 3,94 12,50 — 12,40 0.213 


$ — 3,678, 5, = 1918 et & = 
P 65 ie ’ [3 1 
1,918 35 Ÿ 3% 

(65) 


On ne peut rejeter Ho au niveau 0,05 car Eee æ [-2,00;2,00]. En 


d’autres termes, la différence observée entre les deux moyennes n’est pas signi- 
ficative. 
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Exercice 9.22 


Soit 1 la moyenne de l’an dernier pour l’ensemble des appartements de 3 pièces 
en ville et u2 celle de cette année. Prenons l’hypothèse explicitée dans l’énoncé 
comme étant l'hypothèse nulle, ce qui revient à se poser la question de savoir 
si l’on peut, à faible risque d’erreur, considérer qu’il y a eu une augmentation 
en moyenne. On testera donc Ho : ju > po vs. Hi : 1 < wo et on rejettera H5 
au niveau 0,05 (voir section 9.7.3) si : 
2 T1 — T2 - 165) Re (n1 — 1)57 + (n2 — 1)52 
i n1 + no — 2 


Pr CS É 
PV n na 


car une valeur de t trop négative correspond à x, nettement inférieur à T2 ce 
qui va dans le sens de AH. 
Les tailles d'échantillons sont (quasi) suffisantes pour appliquer la procédure et 


nous supposerons pour l'heure que la condition a? = a? est remplie. On a : 


28(26)? + 30(28)? 325 — 
82 = CRUE) = 32:80 = CCD 1,86 


P 58 
27,14/ 5 + & 


ce qui nous amène à rejeter H4 au niveau 0,05, sans plus, la P-valeur étant 
de 0,034 (obtenue par EXCEL : LOI.STUDENT(1,86 ; 58 ; 1); cette fonction 


donne la probabilité d’être au-delà d’une valeur — nécessairement positive — 


avec le paramètre 1 ; pour 2 la probabilité est doublée, ce qui correspond à une 
situation bilatérale) . 


La procédure est applicable si les tailles d’échantillon permettent les approxi- 
mations gaussiennes, ce qui est le cas ici avec des tailles proches de 30. D'autre 
part, la condition ao? = o? n’est pas cruciale du fait que n1 © n2, d'autant plus 
que les valeurs des variances observées sont assez voisines. Il faut aussi que les 
deux échantillons aient été sélectionnés indépendamment. 


Exercice 9.23 


Soit 1 la moyenne théorique (population pathologique virtuelle supposée dé- 
finie) du rythme cardiaque avant traitement et 2 celle après traitement. On 
se pose la question de savoir si l’on peut, à faible risque d’erreur, considérer 
que le traitement est efficace, soit 2 > ui. On testera donc H5 : ui > 
vs. Hi : Li < ue. Il s’agit d’un test apparié (voir en fin de section 9.7.3) 
car les mesures sont répétées sur le même échantillon. Ce test porte sur la 
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moyenne Ô des différences, après moins avant par exemple, ce qui se traduit 
par Ho : Ô < 0 vs. H1 : Ô > 0. On rejettera Ho au niveau a (voir les notations 
2 : ; _ d (n—1) 
section 9.7.3) si { — RE 
d’une différence moyenne observée fortement positive, ce qui va dans le sens de 


car une valeur élevée (positive) résulte 


H. Les observations après moins avant sont 4; 5,5; 3,2 ;1; —1 et donnent une 
moyenne d = 2,54, un écart-type sq = 2,561. D'où { — 2,218. 


4 ; an do. . . 
Pour a = 0,05 on à a = 2,132 ce qui nous amène à rejeter Ho à ce niveau 


de risque. On ne peut rejeter au niveau 0,01 car la P-valeur est égale à 0,0454 
(EXCEL : LOLSTUDENT(2,218 ; 4 ;1)). Si l’on est prêt à prendre un risque 
d'erreur de 5% on peut admettre que le traitement est efficace. 


Exercice 9.24 


Comme pour l'exercice précédent, il s’agit d’un test apparié. Soit u1 la moyenne 
théorique du niveau des ventes dans l’ancien régime et u2 celle relative au 
nouveau régime (sur la population de l’ensemble des vendeurs). Si l’on veut 
pouvoir affirmer, avec un faible risque d'erreur, qu’il y a baisse de niveau des 
ventes (u2 < j1) il faut mettre cet état de fait en H1. On testera donc Ho 
ui < e vs. Hi : Hi > 2, soit encore en posant Ô = 2 — J1 (nouveau moins 
ancien) H5 : ô > 0 vs. H; : d < 0. 


On rejettera H, au niveau a si t — mc < at car une valeur nettement 
négative résulte d’une différence moyenne observée de même nature, ce qui va 
dans le sens de A1. La moyenne des 16 différences observées nouveau moins 
ancien est trouvée égale à d — —2,315, avec un écart-type sy —10,675. D'où 
t = —0,8665. De toute évidence, on ne peut faire l’affirmation mentionnée avec 
une telle valeur de # (405) = —1,753 et P-valeur = 0,2). 


Exercice 9.25 


L'idée est de voir si, sur la base d’observations, on peut considérer que le 
vaccin est efficace, soit, avec des notations évidentes, p4 < pp. On testera donc 
H5 : pa > pg vs. H: : pA < pp. On suppose que les deux échantillons ont été 
sélectionnés indépendamment. On rejettera H, si la statistique de test prend 
une valeur : 
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trop négative (vis-à-vis de la loi W(0;1)) car cela résulterait d’une valeur p4 
nettement inférieure à Pp, ce qui va dans le sens de A1. 


Comme n4Pa(1 — Da) = 32 > 12 et ngPB(1 — PB) = 48 > 12, on est en droit 
d'appliquer la procédure approximative décrite en section 9.7.6. On à D4 — 


Ra R— 4 Us 0,20—0,40 - 
0,20, pp = 0,40 et p — (40+80)/400 —0,3. D'où 2 Too Da /a017200 


—4,36. Cette valeur est très éloignée sur la loi de Gauss W(0;1) et a une 


P-valeur inférieure à 0,001 car le quantile d’ordre 0,999 est la valeur 3,10 environ 


(voir table). Donc, sans aucun doute, le vaccin est efficace. 


Exercice 9.26 


Le test est Ho : pa = pp vs. H1 : pa Æ ps. On rejette Ho si la valeur de z 
explicitée à l’exercice précédent est trop éloignée de façon bilatérale sur la loi 
N(0;1). On a trouvé ici Pa = 0,5204, Pr — 0, 4903 et : 
4 510 +505 0,5204 — 0, 4903 
p= a = 0,505, z — 
1/(0,505)(0,495)(1/980 + 1/1030) 


980 + 1030 DU 
Au niveau à = 0,05, on rejette Ho si z € [—-1,96; 1,96]. Donc on ne rejette pas. 
La différence des estimations fournies par les deux instituts n’est pas significa- 
tive. 

Notons que la procédure approximative est applicable : n4Pa(1 — Pa) > 12 et 
nBPB(1— PB) > 12. 
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Chapitre 10 : Tests pour variables 


catégorielles et tests non paramétriques 


Exercice 10.1 


Prenons les notations du khi-deux introduites en fin de section 10.2, soit : 


- pour la loi 1 : n11 succès et n21 échecs parmi n 1 essais, d’où p, = 21 


n.1 
- pour la loi 2 : n12 succès et n22 échecs parmi n.,2 essais, d’où D2 = + 
= D — NILHNI2 — Ni. D | 
nn +no, p= Re = +. Montrons que 2° = q. 
4 2 À. D, — Ni11 M12 — N11N22—N12N21 
Le numérateur de z est D — p2 = EE in EE ï 
2 : A 2 =: TL: N1.\ _ n1n2., dk LÉ, = n 
Au dénominateur on a{1—f)=%(1-%)= Met += 
Ainsi : 
. PS Z 12 2 
2 (Pi — P2) n(niino22 ox ni2n21) 
M ces ni Non An ‘ 
p DIE 1.n2.N.17.2 


Pour q, la statistique du test du khi-deux, notons que tous les quatre écarts 
entre observé et attendu sont égaux en valeur absolue puisque les deux tableaux 
ont les mêmes marges. Prenons donc la première case, on à : 


nina | _ 
nm 


rai = L nai (nai + Nao + No + No2) — (nai + R12)(nu1 + na)| = 


2 ÎMiin22 — Nion1|. 


=, LE. = 2 n n L n n 
Donc q = »r(nin2 — mien) Vérna Tone nana me) 
s , : 2 
Comme le dernier facteur est égal à 227%2#+n2nitnineotninn L la 


ni.n2.n.1n.2 ni.n2.n.1n.2? 
propriété est démontrée. 
La statistique de test Z suivant la loi W(0;1), 7? -> x?(1) et les deux tests sont 
donc équivalents (voir avec plus de précision la section10.1.4). Notons toutefois 


que ceci n’est vrai que pour le test avec l’alternative bilatérale p1 # p2. 


Exercice 10.2 


Rappelons que les deux variables catégorielles 4 et ÿ sont dites indépendantes 
si tout événement sur l’une est indépendant de tout événement sur l’autre, un 
événement étant un sous-ensemble de catégories. 

La condition indiquée dans l’énoncé est évidemment nécessaire puisque chaque 


catégorie constitue un événement en soi. Il reste à montrer qu’elle est suffisante. 
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D'une façon générale, si À est indépendant de B; d’une part et de B2 d’autre 
part, B1 et B2 étant disjoints, alors À est indépendant de B; U B2. Clairement, 
comme À NB; et AN B sont disjoints on a : 

P (AN (B1 U B2)) = P((AN B1) U (AN B2)) = P(AN B1) + P(AN B2) 
(4)P(B1) + P(A)P(B2) = P(A) [P(B1) + P(B2)] 
(A)P(B: U B2). 


P 
P 


Dans le contexte de l’énoncé, cela implique que {i1} étant indépendant de {71} 
et de {2} alors {1} est indépendant de {51,2} et, de proche en proche, {1} 
est indépendant de {ÿ1,j2,--: ,jK} quel que soit le sous-ensemble de catégories 
de y. Par symétrie {1,12} est indépendant de {51,j2,:-: ,3k} et, de proche en 
proche, {i1,i2,--- ,üu} est indépendant de {71,92,--- ,3K}. 


Exercice 10.3 


Soient les événements A = (Ni —= n11), B — (Ni. —= n1., N2. —= n2., Ni = nn, 
N2 = n2), on souhaite évaluer P(A|B) = P(ANB)/P(B). 


Pour l’événement AN B, Ni1 = n11 et les marges sont données, alors le ta- 
bleau 2 X 2 est entièrement déterminé. Aïnsi cet événement est identique à 
(Ni = n11, Ni2 = n12, No = n21, N22 _— n22) à condition de prendre n12 — 
Ni, — Nu, Moi = Na — Nu Et No2 = N — (ns + Mio + Noi) = N + Ni — Mi, — Na. 
La loi conjointe de (N:11, N12, No1, No2) est une loi multinomiale de paramètres 
P1.P1, P1.P.2, P2.P.1, P2.p.2 sous l'indépendance d’où (voir section 4.1.6) : 


P(ANB) = P(Nu = na, Nio = ni0, No = Nr, No = na) 
n! 


= men (p1.p.1)"(p1.p.2)""?(p2.p.1)"2 (p2.p.2)"??. 


L'événement B est identique à (M. = n1,N1 = n1) car NM. et No sont 
alors déterminés. On a M. = B{n,p1), N1 + Bn,p1), avec M. et Ni 
indépendants sous l’hypothèse d'indépendance des deux variables catégorielles. 
Donc : 


as 2 La 2 = n1.,.n2. n°: n1,7n.2 
P(B) or P(N:. =, Ni = ni) — He Do. ina P2°- 


m1 ,70:2 et 


En notant que (p1.p.1)"11(p1.p.2)""2(p2.p1)"2(pa.p2)"? = pipe pps 
en faisant le rapport P(AN B)/P(B) on obtient immédiatement le résultat à 


démontrer. 
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Exercice 10.4 


1. D’une façon générale, on a la fonction de vraisemblance relative à la loi 


multinomiale avec les 4 catégories du tableau, soit : 


| 
Ti n1112,21,722 


Pit Pi2 Poi Po2 


L(pi1,P12, Par, p22) = enelnssl 
NiiN12Na21n 


Sous H9 on obtient, en intégrant les contraintes p21 = p12, p22 = 1 — P11 — 2p12 
(et sachant que 22 = N — N11 — N12 — no1) 5 


! 
LE nil PARA 


L(p11, P12) = Par Dir L=pii—2pi8)"2, 


nylon no! 
2. Maximisons : 
In L(p11,P12) = N11 In p11 + (n12 +no) In p12 +122 In(1 DL 2p12) + Constante 


en annulant les deux dérivées partielles par rapport à p11 et p12 : 


re. L(pu,pi2) = _ re 
ms L(Pu;pu) = — Eu _ nn 
En annulant on obtient : 
ni N22 _ Mio +Nai nn 
pin L—pii—2pro  2pao 1 
d’où les estimations du MV sous A5 : Pi1 = "#, Dio = fatner = Doi, Paz = 2. 


3. Les fréquences attendues sous A5 sont respectivement : 


NP = Mais Po = 75 + = NP12, NP22 = Na2, 


d’où : 
: 0 (n2 LL rer a | (noi _ ue y? 0 
q— ni1 N12+N21 , Ni9+No21 | N22 
: 2 (n12 — na) de (n21 — nu) | _ (m2 nu) 
| Mia tnai 4 4 Nat 


4. Le nombre de catégories est 4 et il y a 2 paramètres à estimer sous H5, pui et 
p12, donc selon le théorème 10.1 (Cramer) les degrés de liberté sont 4—1—2 — 1. 
Note : Pour le test du RVG, dont on sait qu’il est asymptotiquement équivalent 
au test du khi-deux, on aurait un seul paramètre spécifé par H4 et on retrouve 
le même degré de liberté. 
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Exercice 10.5 


Raisonnons sur des réalisations en supposant l’absence de valeurs identiques. Si 
R() prend la valeur r,, cela signifie qu’il y a r; —1 valeurs des Y; qui précèdent 
X (1). Si R(2) prend la valeur r2, il y a r2 — 2 valeurs des Y; qui précèdent X(2) 
et, plus généralement, si R{;) prend la valeur r;, il y a r; — à valeurs des Y; qui 


précèdent X(;. 


En section 10.5.4, nous avons défini la statistique U de Mann-Whitney en 
déterminant pour chaque Y; le nombre de X; qui lui sont de valeur supérieure 
puis en totalisant sur tous les Y;. De façon équivalente, on peut comptabiliser 
pour chaque X,;, le nombre de Y; qui lui sont de valeur inférieure et totaliser. 


Dans les notations ci-dessus la réalisation u de U vaut : 
ni 


1 
U=Ti-l+ra-2+...+rn, m = ri gran +1) 
i=1 


où Her r; est la réalisation de la statistique T,, de Wilcoxon fondée sur les 
X;. 
On a donc bien la relation U = Ty, — £na(n1 +1). 


Exercice 10.6 


La corrélation de Spearman est la corrélation linéaire usuelle (voir section 3.4) 


entre la série des rangs R; des X,; et la série des rangs S; des Y;. Chaque série 


étant constituée des nombres 1 à n, sa somme vaut an(n + 1), sa moyenne 
3(n +1), la somme des carrés £n(n + 1)(2n +1). On a: 


Dia (Pi — R)(S: — 5) : D" RS; -nRS 


R, = — — = 
VER -RPEL(S-S) EL R-nR NES? -n5°) 


Or Si R-nR = an(n+1)(2n+1)—in(n+1)? = -En(n?—1) et de même 


Finalement en substituant dans l’expression de À, ci-dessus on obtient immédiate- 


ment le résultat recherché. 
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Exercices appliqués 


Les exercices qui suivent concernent des tests de type khi-deux sur des va- 
riables catégorielles. Rapportons-nous encore à EXCEL, disponible pour tous. 
Ces tests peuvent être effectués par la fonction TEST.KHIDEUX/(plagel ;plage2) 
où la plage 1 contient les effectifs observés et est soit un vecteur, soit un ta- 
bleau, et plage 2 les effectifs attendus correspondants. C’est à l’utilisateur de 
calculer les effectifs attendus, le tableur se prêtant aisément à leur calcul. La 
fonction renvoie directement la P-valeur sans indiquer la valeur q prise par la 
statistique Q (appelée usuellement le khi-deux). On peut toutefois récupérer q 
par la fonction KHIDEUX.INVERSE(P-valeur ; d.l.l.). 


Pour un tableau T X J, que ce soit lors d’un test de comparaison de lois 
multinomiales ou d'indépendance de deux variables catégorielles, les degrés de 
liberté (d.d.1.) sont (I — 1)(J — 1), sauf situations très particulières et rares, et 
le calcul de q est identique dans les deux types de situations. 


Pour un vecteur à 1 composantes du test d’adéquation à une loi multino- 
miale, EXCEL applique des degrés de liberté égaux à I — 1, mais ceci peut être 
incorrect lorsqu'on a dû estimer un certain nombre de paramètres de la loi de 
référence, car il faut encore soustraire ce nombre. On peut toutefois revenir à la 
valeur de q par la fonction KHIDEUX.INVERSE avec I —1 degrés de liberté et 
lire la bonne P-valeur via la fonction LOI. KHIDEUX avec le nombre de degrés 
de liberté correct. Nous verrons des exemples de cela. 


Pour les tableaux les calculs des effectifs attendus sont simples et répétitifs. 
Nous donnerons ces calculs sur un premier exemple et les omettrons par la 
suite. 


Exercice 10.7 

À priori on peut penser que l’on a sélectionné les 202 individus au hasard et 
donc que toutes les marges sont aléatoires. Il s’agit alors de tester l'indépendance 
entre sexe et niveau de gêne. Toutefois, si la sélection a été faite avec des quo- 
tas par sexe, les effectifs 120 et 82 ont été fixés par le plan de sondage et il 
s’agit stricto sensu du test de comparaison de la distribution de la variable 
gêne entre femmes et hommes, ce qui ne change rien à la procédure du test. Le 
tableau des effectifs attendus sous Ho (indépendance gêne/sexe ou identité des 


distributions par sexe le cas échéant) est le suivant : 
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Sexe 
Femmes Hommes | Tous 
Gêne 

Aucune 65,3 44,7 110 

Faible 30,9 21,1 52 

Moyenne 14,9 10,1 25 

Forte 8,9 6,1 15 

120 82 202 

Rappelons qu’il s'obtient par le produit des marges, par exemple 65,3 = SEE 


La valeur prise par la statistique du khi-deux est : 


(75 — 65,3)? (12 — 6,1)? 
= Fe — 16,7. 
É 65,3 6,1 


Sous l’hypothèse H5, la statistique de test Q suit asymptotiquement une loi 
x2?(3). Comme aucun effectif attendu n’est inférieur à 5, l’approximation asymp- 
totique est satisfaisante. On rejette ici au niveau à = 0,05 car q > é oe =7,815 
(voir table). On rejette même au niveau de risque très faible de 0,001 puisque 


x5 0 16,26. De fait, la P-valeur fournie par EXCEL est de 0,0008. 


On peut affirmer avec un très faible risque d’erreur qu’il y à un effet sexe pour 
la gêne. La comparaison des tableaux observé et attendu (sous H5) montre que 


les femmes se déclarent moins sensibles à la gêne que les hommes. 


Exercice 10.8 


Il s’agit d’un test d’adéquation à un certain modèle de loi multinomiale. Les 4 
catégories correspondent au nombre de garçons dans une famille de 3 enfants. 
Sous l’hypothèse HQ que le sexe d’un nouveau né est indépendant au cours des 
naissances successives et que la probabilité p d’avoir un garçon à chaque nais- 
sance reste constante, le nombre de garçons X pour une famille de 3 enfants 
suit une loi B(3,p). Pour les valeurs x = 0, 1,2,3 les probabilités sont respecti- 
vement (1— p)%,p(1 — p}?,p?(1 — p),p°. Mais p est inconnu et doit être estimé 
par l’estimateur du MV qui est la proportion ÿ de garçons dans l’échantillon, 
soit : 


Î = 3% (0 x 71+1 x 297 +2 x 336 + 3 x 121) —0,5382. 


Corrigés des exercices 405 


Le tableau ci-après donne les effectifs observés en regard des effectifs attendus. 


Nombre de garçons æ (0 1 2 3 
Effectifs observés ni 71 297 336 121 
Prob. théoriques estimées 9; 0,0985 0,3443 0,4013 0,1559 
Effectifs attendus np; 81,26 284,08 331,06 128,60 


> à _ _ (71-81,26)? (297—284,08)? | (336—331,06)? (121—128,60)? 
d'où q= 5% 284,08 331,06 128,60 = 2,41. 


Sous H5, Q suit approximativement une loi du khi-deux avec 4-1-1—2 d.d.l. 
du fait qu’il a fallu estimer un paramètre (les effectifs attendus étant élevés 
l’approximation doit être très satisfaisante). La valeur de q trouvée correspond 


à une P-valeur de 0,30 et il n’y à pas lieu de rejeter H5. 


Ici nous rencontrons une situation où EXCEL donne une valeur erronée de la 
P-valeur. En effet la fonction TEST.KHIDEUX prend un nombre de d.d.l. égal 
à 3, ignorant qu’un paramètre a dû être estimé. La P-valeur donnée est en fait 
0,4925 laquelle, par KHIDEUX.INVERSE(0,4925 ; 3), redonne la bonne valeur 
de q = 2,41. Il faut ensuite exécuter LOI. KHIDEUX(2,41 ; 2) pour trouver la 


bonne P-valeur. 


Exercice 10.9 


Cet exercice se fait sur le même modèle que le précédent. La distribution mul- 
tinomiale est donnée avec 5 catégories. Il est nécessaire d’estimer le paramètre 
À de la loi de Poisson pour estimer les probabilités des catégories : 

AMV =g=1(21x0+18x1+7xX2+3 x 3+ 1 x 4) = 0,90. 
Les probabilités théoriques du modèle sous A, sont calculées selon Us 


D'où le tableau : 


Nombre d’accidents æ (0) 1 2 3 4 
Effectifs observés ni 21 18 7 3 1 
Prob. théoriques estimées 9; 0,4066 0,3659 0,1647 0,0494 0,0135 
Effectifs attendus np; 20,33 18,30 8,235 2,470 0,675 


On remarque que pour x=3 et x = 4, les effectifs attendus sont inférieurs à 
5. Pour éviter cela, il faut regrouper les 3 dernières catégories. Cette nouvelle 
catégorie à pour effectifs observés 11 et attendus 11,38. 
La valeur prise par la statistique du khi-deux est : 

(21 — 20, 33)? _ (8— 18, 30)? CEE 38)? 


20, 33 | | 


= 0,043. 
18, 30 11, 38 ne 


q — 
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Sous H5, Q suit approximativement une loi du khi-deux avec 3 —1—1=1 


(1) 


d.d.l. et on rejette Ho au niveau 0,05 si q > re — 3,84. On accepte donc 


Ho. Note : La P-valeur est 0,836 (voir exercice précédent pour son calcul). 


Exercice 10.10 


On se rapportera à l'exercice 10.7 pour la procédure qui est ici analogue. On 
trouve (via EXCEL, par exemple) une valeur de q égale à 2,78 correspondant à 
une P-valeur de 0,43 sur la loi x?(3). Il n’a donc pas lieu de rejeter l’hypothèse 
d'indépendance. 

Sur la base de cette enquête on ne peut considérer qu’il y ait un mode de 
logement différent entre étudiantes et étudiants. 


Exercice 10.11 


On se rapportera également à l'exercice 10.7 pour la procédure. 

On est ici dans une situation de comparaison de 4 distributions multinomiales 
car on peut considérer qu’on a constitué 4 échantillons de tailles définies, res- 
pectivement 106, 174, 134 et 76. On trouve (via EXCEL, par exemple) une 
valeur de q égale à 32,87 correspondant à une P-valeur inférieure à 10% sur la 
loi y2(6). On peut considérer avec un risque quasi nul de se tromper qu'il y à 


une relation entre l’âge et le type d’opérateur choisi. 


Exercice 10.12 


On se rapportera à l’exercice 10.7 pour la procédure. 

On est ici dans une situation de comparaison de 2 distributions multinomiales. 
On doit rejeter au niveau 0,05 pour q > ot = 7,81. On trouve (via EXCEL, 
par exemple) une valeur de q égale à 2,81 (P-valeur—0,42). I n’y a donc pas 
lieu de considérer, sur la base de cette enquête, que la répartition des revenus 
soit différente entre les deux pays. 

Note : Un des effectifs attendus vaut 4,44 et est donc inférieur à 5. On a 
vu toutefois en fin de section 10.2 que, pour des tableaux autres que 2X2, la 
condition n’était pas cruciale. De plus, ici, on est suffisamment loin de rejeter 
pour se soucier du niveau d’approximation. 
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Exercice 10.13 


Le tableau ci-après donne les éléments utiles pour effectuer le test d’adéquation 
du khi-deux (colonnes 2 à 4) et celui de Kolmogorv-Smirnov (colonnes 5 à 8). 


Mesure Effectif Proba. Effectif Ef. Obs. Fn. Rép. Fn. Rép. Différence 
Observé théorique attendu cumulé empirique théorique test K-S 

33 3 0,0010 5,7 3 0,0005 0,0010 -0,0005 
34 18 0,0037 21,2 21 0,0037 0,0047 -0,0010 
35 81 0,0126 72,3 102 0,0178 0,0173 0,0005 
36 185 0,0348 99,7 287 0,0500 0,0521 -0,0021 
37 420 0,0758 434,9 707 0,1232 0,1279 -0,0047 
38 749 0,1303 747,7 1456 0,2537 0,2582 -0,0045 
39 1073 0,1779 1020,8 2529 0,4407 0,4361 0,0046 
40 1079 0,1920 1101,7 3608 0,6288 0,6281 0,0007 
41 934 0,1643 942,8 4542 0,7916 0,7924 -0,0008 
42 658 0,1112 638,1 5200 0,9062 0,9036 0,0026 
43 370 0,0597 342,6 5570 0,9707 0,9633 0,0074 
44 92 0,0253 45,2 5662 0,9868 0,9886 -0,0018 
45 50 0,0086 49,3 5712 0,9955 0,9972 -0,0017 
46 21 0,0022 12,6 5733 0,9991 0,9994 -0,0003 
47 4 0,0005 2,9 5737 0,9998 0,9999 -0,0001 
48 1 0,0001 0,6 5738 1,0000 1,0000 0,0000 


La moyenne observée est 39,83 et l’écart-type 2,050. Les probabilités théoriques 
sous Ho doivent être estimées sur la loi de X > W(39,83; (2,050)?). 

Pour la première ligne on calcule P(X < 33,5) — 0,0010, pour la deuxième 
P(33,5 < X < 34,5) = 0,0037, etc. 


Pour le test du khi-deux il faut regrouper les 3 dernières lignes pour avoir 
un effectif attendu supérieur à 5, se ramenant ainsi à 14 classes. Sous Ho (la 
répartition est gaussienne) la statistique de test Q a une loi asymptotique du 
khi-deux avec 14—1—2 = 11 d.d.l. car il a fallu estimer moyenne et variance de 
la loi. On trouve une valeur q = 36,1 pour cette statistique ce qui correspond à 
une P-valeur de 0,00016. On peut rejeter l’hypothèse gaussienne avec un risque 
d'erreur infime. Ce résultat ne doit pas surprendre car la taille de l’échantillon 
étant grande, la puissance du test est élevée et un modèle plus adaptatif doit 


être recherché. 


Pour le test de Kolmogorov-Smirnov on obtient une différence maximale entre 
fonctions de répartition empirique et théorique d, = 0,0074. Vu la taille d’échan- 
tillon on a, pour la statistique de test D,, une approximation de la valeur 
critique au niveau 0,05 qui est 1,36//n — 0,018. On voit que ce test ne re- 
jette pas l’hypothèse gaussienne. En réalité, il est inadapté car beaucoup trop 
conservateur et donc peu puissant, d’une part du fait des gros effectifs sur les 
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classes qui ne permettent pas de suivre l’évolution détaillée de la fonction de 
répartition empirique, d’autre part du fait que les écarts sont sous-évalués en 
prenant comme référence la loi de Gauss dont la moyenne et la variance sont 


estimées sur les données. 


Exercice 10.14 


En fusionnant les deux échantillons, il y a 23 observations en-dessous de 3 et 
24 au-dessus de 3. La médiane étant la valeur 3 on est contraint d’évacuer les 
13 observations situées sur 3 qui sont inclassables. On raïisonne donc sur une 
taille globale réduite à 47 pour laquelle il y a 23 valeurs sous la médiane. 

Sous H5 (pas de différence d’attitude) la loi du nombre N, d'observations 
sous la médiane pour le premier échantillon (ménages avec enfant(s)) de taille 
25, est la loi H(47:23;25) qui peut être approchée par une loi de Gauss de 


moyenne et variance : 


__ 25 x 46 
7 2x 47 


25 x 22 x 48 
= 12,234 © = — 2,988. 
Se 7 x um 


Donc on rejettera au niveau 0,05 si N sort de l’intervalle 12,234+1,96,/2, 988, 
soit [8,85 ;15,62]. Comme Ni a pris la valeur 15, on ne peut rejeter l'hypothèse 
d'absence de différence d’attitude. 

La probabilité de dépasser 14,5 sur la loi de Gauss étant égale à 0,095, la 
P-valeur est approximativement 0,19. Sur la loi H(47 ; 23; 25), la probabilité 
P(N; > 15) vaut 0,092 (calculable par EXCEL) et la P-valeur exacte est donc 


0,184 ce qui montre que l’approximation est très bonne. 


Note : Rappelons que le test de la médiane est peu puissant d’une façon générale 
et qu’il l’est particulièrement ici au vu de l’étroitesse de l’échelle et de la taille 
des échantillons. 
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Chapitre 11 : Régression linéaire 


Exercice 11.1 


Pour p = 2 la formule générale de la densité du vecteur (X, Ÿ) gaussien est : 


fxx (y) = D ARAUE exp { su p)° EE (u -n)} . 


oùu=(r)etu= (5x). 


La matrice des variances-covariances est : 


2 
SD — Ox POxOY 
— ; : 
POXOY OY 


d’où det E = 0%0%(1— p?) et : 


1 1 0% —POXOY 
2 => T2 2 : 
Ox0ÿ( p?) —POXOY OX 
L'expression de fxv(x,y) est finalement (pour plus de détails sur le calcul 


matriciel voir l’exercice 3.8) : 


2e =ux)(y= ur) | (= uy}? 


1 ses 1 (ex) 
2r0x0y V(1— p?) 2(1 — p?) 0% OXOY 0$ | 


Par ailleurs fx(x) = 


2 
_ exp { à ESS } et donc fy,x=2(y) a pour constante 
X 


devant l’exponentielle PTE) et pour l’exponentielle : 


1 [ET a PE HxŸ pes en 4 y] 


2(1 — p? 0% 0% OxOY o$. 
. 1 2 ux)  , G=ux)u ur) , w=urY 
2 D) P de 2 
G-# |" 7x0 2 


L 055 { ur +2 po]} 


ce qui met en évidence une loi de Gauss de moyenne psy +p%%(x — ux) et de 


variance o%(1 — p?). 

Cela montre que dans le modèle de régression de Y sur X la droite de régression 
a pour pente p#= et passe par le point de coordonnées (ux,uy). De plus, la 
variance de Ÿ est réduite du facteur 1 — p?, c’est-à-dire d'autant plus que Y 
est liée à X. 
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Exercice 11.2 


E(eX) = Î | REED a] fx(æ)dx = JF. yfx,y (x, y)dxdy = uv 


qui est donc égal à J,(80 + Pix) fx(x)dx = Bo + Biux. 
De la même façon : 


E(Xe(20) = J[ aufx(e drdy = EC) 


qui est donc égal à f, (60+/1x) fx(x)dx = Boux +/B1E(X?). D'où à résoudre 
en (90, Bi) : 
Bo + Biux = y 
{ Boux + BE(X?) = E(XY) 

En multipliant la première équation par —ux et lui ajoutant la suivante, on a : 

BIE(X?)- n&]=E(XY)-uxuy soit Pi = CN 2 jar 
et en remplaçant dans la première : 
Bo = hy — pux et ainsi Bo + Pix = puy + p (x — px). 


Pour la variance conditionnelle : 


EG) = [ VOIX = 0x (er 


= f Re _ Lur + op (a _ so] } he, Jx(x)dx 


= Î. { ur pe (x 2] ten 


2 
OY © 
= E(Y?) - D + 2uyp—E(X — ux) + PTE V0) 
OX OYx 


= E(Y?) — pÿ — p'oÿ, = oÿ(1 — p°). 


Mais d’autre part, comme V(Y|X = x) ne dépend pas de x on peut dire, à 
partir de la première équation ci-dessus, que E(#(X)) = V(Y|X = x), ce qui 
démontre le résultat donné. 

Ainsi on peut conclure que, pour tout modèle à espérance conditionnelle linéaire 


et à variance conditionnelle constante, les expressions de ces dernières restent 


identiques à celles trouvées dans le cas gaussien. 
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Exercice 11.3 


Tout d’abord, reprenons les formules de la section 11.2.2 donnant Bo et Br en 


raisonnant sur les réalisations y; des Y; : 


Bo = y Br 
g - Liati = -7) 
+ nn = T)? 


dont on déduit que ÿ; = Bo + Bit: = 5 + Bi(x: — %). 


De y; — 7 = (yi — %) + (Yi — 7) découle : 


nm nm 102 nm 


Du) = du) +3 (0-7) +29 (ui -%)(G 9). 


i=1 i=1 i=1 i=1 


Il suffit de montrer que le dernier terme à droite est nul pour avoir la décompo- 
sition utilisée en section 11.2.4. On a : 


102 


nm nm 

du — %)(i — 7) = D Hu = LDC — ), 

i=1 i=1 i=1 

or, en substituant l'expression donnée plus haut pour # : 
Dia (gi — Di) = Din [Gus — 3) — Bi(xi — 7)| = 0 


car D_(yi — y) et D, (x; — T) sont nuls. Il reste donc le terme : 


= 0 + B NE 3) [ui y B (x: >] 
= 5 > — T)(yi — 9) — ñ > (ti — 5? 


et ce terme est bien nul en vertu de l’équation qui donne B. 
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Exercice 11.4 


La prévision ponctuelle de Y, est B + Bito. Comme E(Y) = Bo + Bio et que 
Bo, B sont sans biais, E(Yo — (Bo + Bixo)) = (0. 

En utilisant les résultats de la section 11.2.2 sur les espérances, variances et 
covariance de B et Bi on à : 


V(Bo + Bixo) = V(Bo) + x5V (Bi) + 2x0 cou(Bo, Bi) 


et comme Y, est de variance a? et indépendante de B + Bi%o : 


V(Yo — (Bo + Bito)) = 0? (: : + D) 


et Yo — (Bo + Bito) est gaussien. 


Selon la proposition 11.1 S? est indépendant de Bo — Bito et donc également 
2 La 2 
de Yo — (Bo + Bio) et comme m2 x 2 (n — 2) : 


Yo — (Bo + Bixo) 
1 (xo—T) 
Sÿ1+4+ 


2 t(n —2). 


Cette v.a. peut être encadrée par po, no] avec probabilité 0,95 ce qui 


conduit immédiatement à l’intervalle de prédiction donné dans l’énoncé. 


Notons que l'intervalle est d’autant plus précis que xo est proche de %. 


Exercice 11.5 


Soit B =), a;Y; un estimateur linéaire quelconque de 1. Comme E (B) = 
Dim E(Y) = DE &i(Bo + Biti) il est sans biais, quels que soient les x;, si 
Vide > ram = 1. Sa variance est > 2 GV(V)= 62) 40. 


L’estimateur de variance minimale parmi les estimateurs sans biais est tel que 


nm 2 . . + + = nm TE nm : Es 
ÿ;_, a? soit minimal sous les contraintes D 7;_, a; = 0 et ÿ';_, aix; = 1. 


Résolvons ce problème par le multiplicateur de Lagrange, soit en minimisant la 
fonction de (c1,c2,--- ,€n, A1, À) : 3224 47 — An DE Qi — Ào(D 2 ait — 1). 
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On résout le système suivant annulant les n + 2 dérivées partielles : 


2a; — À1 — A2; = 0 (n équations pour i = 1,-:-,n) 
Dir &i = 0 
Dia Gti = 1 


La somme des n premières équations donne —n; — À DA x; = 0. En multi- 
pliant chacune d’elles par x; et en sommant on obtient encore 2 — À; So: Ti — 


A2 32; x? = 0. Ces deux équations permettre de déterminer À et À: : 


À = —)27T A2 = 7 COL 
= n n > pe 25 
2+ (TD ii — Din) = 0 MES 


Puis, en substituant dans les n premières équations du système initial : 


24; | n = ñ = — 0 
Diliem) (tr ao 


soit finalement : - 
Ti — L 


Dimitri 7} 


Ainsi l’estimateur de variance minimale est : 


D ii (mi — &)Y: Di (mi sn) 
Di (ti on Di (ei =) 


puisque 3 %_,(x; —æ)Y — 0. Cet estimateur est bien celui des moindres carrés. 


di — 


Bi = 


Exercice 11.6 


La log-vraisemblance a été vue en section 11.2.2 : 


In L(Bo, Pa, 0°) = 7 (n 27 + Ina°) _ DE (Bo + Biti)|. 


i=1 


nm 


Le dénominateur du RVG est obtenu avec les estimations du MV de Go, Bi et 


o? établis dans cette section : 


In L(Bo, B,67) = —>(n2r +1n6°) bi — (Po + Ar) 


Il 


=> (n27 +In6?) = = 


car 67 = LD lui — (Bo + Bari). 
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Pour le numérateur, on se place sous H6 : B1 = 0, c’est-à-dire que les Y; sont 


i.i.d. d'espérance # et de variance o? dont les estimations du MV sont respec- 


tivement (voir exemple 6.20) ÿ et 5? = 1 57%, (y; — 7)°. La log-vraisemblance 


+ 


maximale est : 


In Z(Bo, 0, 3?) — 7 (n 27 + In $?) _ 
Finalement : 
LEURS nm Dia (y — 7) 
In RVG = 2m ; mn 182 . 


Or la réalisation de la statistique F est (voir section 11.2.4) : 


= D ii (D = 7) _ (n — 2) DD = CD 


82 no? 


S? ayant été défini comme égal à n6?/(n—2). Par la décomposition de la somme 


des carrés totale on a : 


. 

n 

et : In RVG = —--In(—— +1). 
e n RVG 5 Me 1) 


Le RVG est une fonction décroissante de f et la région de rejet de la forme 
—21n RVG < k correspond à une région f < k’ du test classique. Toutefois la loi 
asymptotique de —21n RVG n’est pas en correspondance avec la loi F(1,n—2) 
du test classique. 


Tables 


Loi de Gauss 
Loi de student 
Loi de Fisher 
Loi du khi-deux 


Ces tables ont été reproduites avec l’aimable autorisation de Denis Labelle 
et Alain Latour, de leur ouvrage polycopié Statistique Inférentielle, Université 
du Québec à Montréal (UQAM) 
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Loi normale 


4 49 8 cd o / 1 2 3 4 
Z 


Loi N (0;1) : Valeur de Pr{N(0;1) < z} en fonction de z 


z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 


0,0 ,9000  ,5040  ,5080  ,5120  ,5160 ,5199 ,5239 ,5279 ,5319  ,5359 
0,1 5398  ,5438  ,5478  ,5517  ,5557  ,5596  ,5636  ,5675  ,5714  ,5753 
0,2 9793  ,5832  ,5871 ,5910 ,5948  ,5987  ,6026  ,6064  ,6103  ,6141 
0,3 ,6179  ,6217 ,6255  ,6293 ,6331  ,6368  ,6406  ,6443  ,6480  ,6517 
0,4 ,6554 ,6591  ,6628  ,6664  ,6700  ,6736  ,6772  ,6808 ,6844  ,6879 
0,5 6915  ,6950  ,6985  ,7019 ,7054 ,7088 ,7123 ,7157 ,7190 ,7224 
0,6 7257 ,7291 ,7324 ,7357 ,17389  ,7422 ,7454 ,7486  ,7517  ,17549 
0,7 | ,7580 ,7611 ,7642 ,7673  ,7704 ,7734  ,7764  ,7794  ,7823  ,7852 
0,8 7881 ,7910 ,7939 ,7967  ,7995  ,8023  ,8051 ,8078  ,8106  ,8133 
0,9 8159 ,8186 ,8212 ,8238 ,8264 ,8289 ,8315 ,8340 ,8365  ,8389 
1,0 8413  ,8438  ,8461 ,8485  ,8508 ,8531 ,8554 ,8577 ,8599 ,8621 
1,1 ,8643  ,8665  ,8686  ,8708  ,8729 ,8749 ,8770 ,8790 ,8810  ,8830 
1,2 ,8849  ,8869 ,8888  ,8907  ,8925 ,8944 ,8962 ,8980 ,8997  ,9015 
1,3 9032 ,9049  ,9066  ,9082  ,9099  ,9115  ,9131 ,9147 ,9162  ,9177 
1,4 9192  ,9207 ,9222 ,9236 ,9251 ,9265 ,9279 ,9292 ,9306  ,9319 
1,5 9332  ,9345 ,9357  ,9370 ,9382 ,9394 ,9406 ,9418 ,9429 ,9441 
1,6 9452  ,9463  ,9474  ,9484  ,9495  ,9505  ,9515 ,9525 ,9535  ,9545 
1,7 | ,9554 ,9564 ,9573 ,9582 ,9591 ,9599 ,9608 ,9616 ,9625  ,9633 
1,8 9641  ,9649 ,9656  ,9664  ,9671 ,9678  ,9686  ,9693  ,9699  ,9706 
1,9 9713  ,9719  ,9726  ,9732  ,9738  ,9744 ,9750 ,9756  ,9761  ,9767 
2,0 9772  ,9778  ,9783  ,9788  ,9793  ,9798  ,9803  ,9808 ,9812  ,9817 
2,1 9821  ,9826  ,9830 ,9834 ,9838 ,9842 ,9846  ,9850 ,9854  ,9857 
2,2 9861  ,9864  ,9868  ,9871 ,9875  ,9878  ,9881 ,9884 ,9887  ,9890 
2,3 9893  ,9896  ,9898  ,9901  ,9904 ,9906  ,9909 ,9911 ,9913  ,9916 
2,4 9918  ,9920 ,9922 ,9925 ,9927 ,9929 ,9931 ,9932 ,9934  ,9936 
2,5 9938  ,9940 ,9941 ,9943  ,9945 ,9946  ,9948 ,9949  ,9951  ,9952 
2,6 9953  ,9955  ,9956  ,9957  ,9959  ,9960  ,9961 ,9962  ,9963  ,9964 
2,7 || ,9965 ,9966  ,9967  ,9968  ,9969  ,9970 ,9971 ,9972  ,9973  ,9974 
2,8 9974 ,9975  ,9976  ,9977  ,9977  ,9978  ,9979 ,9979 ,9980  ,9981 
2,9 9981  ,9982 ,9982 ,9983  ,9984 ,9984 ,9985 ,9985 ,9986  ,9986 
3,0 9987  ,9987 ,9987  ,9988  ,9988  ,9989  ,9989  ,9989  ,9990  ,9990 
3,1 9990  ,9991 ,9991  ,9991  ,9992 ,9992 ,9992 ,9992 ,9993  ,9993 
3,2 9993  ,9993 ,9994 ,9994 ,9994 ,9994 ,9994 ,9995  ,9995  ,9995 
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Loi de Student 


a/2 a/2 
4 » 
#4 -S S À 1 3 4 
a 
2 0,500 0,200 0,100 0,050 0,020 0,010 
1 1,000 3,078 6,314 12,706 31,821 63,656 
2 0,816 1,886 2,920 4,303 6,965 9,925 
3 0,765 1,638 2,353 3,182 4,541 5,841 
4 0,741 1,533 2,132 2,776 3,747 4,604 
5 0,727 1,476 2,015 2,571 3,365 4,032 
6 0,718 1,440 1,943 2,447 3,143 3,707 
7 0,711 1,415 1,895 2,365 2,998 3,499 
8 0,706 1,397 1,860 2,306 2,896 3,399 
9 0,703 1,383 1,833 2,262 2,821 3,250 
10 | 0,700 1,372 1,812 2,228 2,764 3,169 
LL 0,697 1,363 1,796 2,201 2,718 3,106 
12 | 0,695 1,356 1,782 2,179 2,681 3,055 
13 | 0,694 1,350 1,771 2,160 2,650 3,012 
14 | 0,692 1,345 1,761 2,145 2,624 2,977 
15 | 0,691 1,341 1,753 2,131 2,602 2,947 
16 | 0,690 1,337 1,746 2,120 2,583 2,921 
17 | 0,689 1,333 1,740 2,110 2,567 2,898 
18 | 0,688 1,330 1,734 2,101 2,552 2,878 
19 | 0,688 1,328 1,729 2,093 2,539 2,861 
20 | 0,687 1,325 1,725 2,086 2,528 2,845 
21 0,686 1,323 1,721 2,080 2,518 2,831 
22 | 0,686 1,321 1,717 2,074 2,508 2,819 
23 | 0,685 1,319 1,714 2,069 2,500 2,807 
24 | 0,685 1,318 1,711 2,064 2,492 2,797 
25 | 0,684 1,316 1,708 2,060 2,485 2,787 
26 | 0,684 1,315 1,706 2,056 2,479 2,779 
27 | 0,684 1,314 1,703 2,052 2,473 2,771 
28 | 0,683 1,313 1,701 2,048 2,467 2,763 
29 | 0,683 1,311 1,699 2,045 2,462 2,756 
30 | 0,683 1,310 1,697 2,042 2,457 2,750 
50 | 0,679 1,299 1,676 2,009 2,403 2,678 
70 | 0,678 1,294 1,667 1,994 2,381 2,648 
90 | 0,677 1,291 1,662 1,987 2,368 2,632 
OO 0,674 1,282 1,645 1,960 2,326 2,576 


418 


Statistique - La théorie et ses applications 


Loi de Fisher 


0 


Pr(Fiwo > c) = 0,05 


1 


2 


3 


V2 

V1 1 2 3 4 5 6 7 8 9 10 12 15 

1161 18,5 10,1 7,71 6,61 5,99 5,59 5,32 5,12 4,96 4,75 4,54 

2 1 199 19,0 9,55 6,94 5,79 5,14 4,74 4,46 4,26 4,10 3,89 3,68 

3 | 216 19,2 9,28 6,59 5,41 4,76 4,35 4,07 3,86 3,71 3,49 3,29 

4 | 225 19,2 9,12 6,39 5,19 4,53 4,12 3,84 3,63 3,48 3,26 3,06 

5 | 230 19,3 9,01 6,26 5,05 4,39 3,97 3,69 3,48 3,33 3,11 2,90 

6 | 234 19,3 8,94 6,16 4,95 4,28 3,87 3,58 3,37 3,22 3,00 2,79 

7 1237 19,4 8,89 6,09 4,88 4,21 3,79 3,50 3,29 3,14 2,91 2,71 

8 | 239 19,4 8,85 6,04 4,82 4,15 3,73 3,44 3,23 3,07 2,85 2,64 

9 | 241 19,4 8,81 6,00 4,77 4,10 3,68 3,39 3,18 3,02 2,80 2,59 
10 | 242 19,4 8,79 5,96 4,74 4,06 3,64 3,35 3,14 2,98 2,75 2,54 
11 1 243 19,4 8,76 5,94 4,70 4,03 3,60 3,31 3,10 2,94 2,72 2,51 
12 | 244 19,4 8,74 5,91 4,68 4,00 3,57 3,28 3,07 2,91 2,69 2,48 
13 | 245 19,4 8,73 5,89 4,66 3,98 3,55 3,26 3,05 2,89 2,66 2,45 
14 | 245 19,4 8,71 5,87 4,64 3,96 3,53 3,24 3,03 2,86 2,64 2,42 
15 | 246 19,4 8,70 5,86 4,62 3,94 3,51 3,22 3,01 2,85 2,62 2,40 
16 | 246 19,4 8,69 5,84 4,60 3,92 3,49 3,20 2,99 2,83 2,60 2,38 
17 | 247 19,4 8,68 5,83 4,59 3,91 3,48 3,19 2,97 2,81 2,58 2,37 
18 | 247 19,4 8,67 5,82 94,58 3,90 3,47 3,17 2,96 2,80 2,57 2,35 
19 | 248 19,4 8,67 5,81 4,57 3,88 3,46 3,16 2,95 2,79 2,56 2,34 
20 | 248 19,4 8,66 5,80 4,56 3,87 3,44 3,15 2,94 2,77 2,54 2,33 
21 | 248 19,4 8,65 5,79 4,55 3,86 3,43 3,14 2,93 2,76 2,53 2,32 
22 | 249 19,5 8,65 5,79 4,54 3,86 3,43 3,13 2,92 2,75 2,52 2,31 
23 | 249 19,5 8,64 5,78 4,53 3,85 3,42 3,12 2,91 2,75 2,51 2,30 
24 | 249 19,5 8,64 5,77 4,53 3,84 3,41 3,12 2,90 2,74 2,51 2,29 
25 | 249 19,5 8,63 5,77 4,52 3,83 3,40 3,11 2,89 2,73 2,50 2,28 
26 | 249 19,5 8,63 5,76 4,52 3,83 3,40 3,10 2,89 2,72 2,49 2,27 
27 | 250 19,5 8,63 5,76 4,51 3,82 3,39 3,10 2,88 2,72 2,48 2,27 
28 | 250 19,5 8,62 5,75 4,50 3,82 3,39 3,09 2,87 2,71 2,48 2,26 
29 | 250 19,5 8,62 5,75 4,50 3,81 3,38 3,08 2,87 2,70 2,47 2,25 
30 | 250 19,5 8,62 5,75 4,50 3,81 3,38 3,08 2,86 2,70 2,47 2,25 
32 | 250 19,5 8,61 5,74 4,49 3,80 3,37 3,07 2,85 2,69 2,46 2,24 
34 | 251 19,5 8,61 5,73 4,48 3,79 3,36 3,06 2,85 2,68 2,45 2,23 
36 | 251 19,5 8,60 5,73 4,47 3,79 3,35 3,06 2,84 2,67 2,44 2,22 
38 | 251 19,5 8,60 5,72 4,47 3,78 3,35 3,05 2,83 2,67 2,43 2,21 
40 | 251 19,5 8,59 5,72 4,46 3,77 3,34 3,04 2,83 2,66 2,43 2,20 
45 | 251 19,5 8,59 5,71 4,45 3,76 3,33 3,03 2,81 2,65 2,41 2,19 
50 | 252 19,5 8,58 5,70 4,44 3,75 3,32 3,02 2,80 2,64 2,40 2,18 
55 | 252 19,5 8,58 5,69 4,44 3,75 3,31 3,01 2,79 2,63 2,39 2,17 
60 | 252 19,5 8,57 5,69 4,43 3,74 3,30 3,01 2,79 2,62 2,38 2,16 
65 | 252 19,5 8,57 5,68 4,43 3,73 3,30 3,00 2,78 2,61 2,38 2,15 
70 | 252 19,5 8,57 5,68 4,42 3,73 3,29 2,99 2,78 2,61 2,37 2,15 
80 | 253 19,5 8,56 5,67 4,41 3,72 3,29 2,99 2,77 2,60 2,36 2,14 
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œ 
» 
0 ul 2 3 4 5 6 
Pr(F wo > c) = 0,05 
va 
V1 18 20 22 24 26 28 30 40 50 60 100 200 
1 | 4,41 4,35 4,30 4,26 4,23 4,20 4,17 4,08 4,03 4,00 3,94 3,89 
2 3,55 3,49 3,44 3,40 3,37 83,34 3,32 3,23 8,18 3,15 3.09 3,04 
3 | 3,16 3,10 3,05 3,01 2,98 2,95 2,92 2,84 2,79 2,76 2,70 2,65 
4 2,93 2,87 2,82 2,78 2,14 2,11 2,69 2,61 2,56 2,)3 2,46 2,42 
5 2,11 2,11 2,66 2,62 2,59 2,56 2,53 2,45 2,40 2,81 2,91 2,26 
6 2,66 2,60 2,55 2,51 2,47 2,45 2,42 2,34 2,29 2,25 2,19 2,14 
7 2,58 2,51 2,46 2,42 2,39 2,36 2,33 2,25 2,20 2,17 2,10 2,06 
8 2,51 2,45 2,40 2,36 2,32 2,29 2,27 2,18 2,13 2,10 2,03 1,98 
9 2,46 2,39 2,34 2,30 2,27 2,24 2,21 2,12 2,07 2,04 1,97 1,93 
10 2,41 2,88 2,30 2,25 2,22 2,19 2,16 2,08 2,03 1,99 1,93 1,88 
11 2,37 2,31 2,26 2,22 2,18 2,15 2,13 2,04 1,99 1,95 1,89 1,84 
12 2,34 2,28 2:25 2,18 2,15 2,12 2,09 2,00 1,95 1,92 1,85 1,80 
13 2,31 2,25 2,20 2,15 2,12 2,09 2,06 1,97 1,92 1,89 1,82 1,77 
14 | 2,929 2,22 2,17 2,13 2,09 2,06 2,04 195 1,89 1,86 1,79 1,74 
15 2,27 2,20 2,15 2,11 2,07 2,04 2,01 1,92 1,87 1,84 TT 1,72 
16 | 2,25 2,18 2,13 2,09 2,05 2,02 1,99 1,90 1,85 1,82 1,75 1,69 
17 1 2,923 2,17 2,11 2,07 2,03 2,00 1,98 1,89 1,83 1,80 1,73 1,67 
18 2,22 2,15 2,10 2,05 2,02 1,99 1,96 1,87 1,81 1,78 1,71 1,66 
19 | 2,20 2,14 2,08 2,04 2,00 1,97 1,95 1,85 1,80 1,76 1,69 1,64 
20 | 2,19 2,12 2,07 2,03 1,99 1,96 1,93 1,84 1,78 1,75 1,68 1,62 
21 | 28 2,11 2,06 2,01 198 1,95 1,92 183 1,77 1,73 1,66 1,61 
22 | 2,17 2,10 2,05 2,00 1,97 1,93 1,91 1,81 1,76 1,72 1,65 1,60 
23 | 2,16 2,09 2,04 1,99 1,96 1,92 1,90 1,80 1,75 1,71 1,64 1,58 
24 | 2,15 2,08 2,03 1,98 1,95 1,91 1,89 1,79 1,74 1,70 1,63 1,57 
25 2,14 2,07 2,02 1,97 1,94 1,91 1,88 1,78 1,73 1,69 1,62 1,56 
26 | 2,13 2,07 2,01 1,97 1,93 1,90 1,87 1,77 1,72 1,68 1,61 1,55 
27 | 2,13 2,06 2,00 1,96 1,92 1,89 186 1,71 1iri 1,67 1,60 1,54 
28 | 2,12 2,05 2,00 1,95 1,91 1,88 1,85 1,76 1,70 1,66 1,59 1,53 
29 | 2,11 2,05 1,99 1,95 1,91 1,88 1,85 1,75 1,69 1,66 1,58 1,52 
30 | 2,11 2,04 1,98 1,94 1,90 1,87 1,84 1,74 169 1,65 1,57 1,52 
32 | 2,10 2,03 1,97 1,93 1,89 1,86 1,83 1,73 1,67 1,64 1,56 1,50 
34 | 2,09 2,02 1,96 1,92 1,88 1,85 1,82 1,72 1,66 1,62 1,55 1,49 
36 2,08 2,01 1,95 1,91 1,87 1,84 1,81 LT 1,65 1,61 1,54 1,48 
38 | 2,07 2,00 1,95 1,90 1,86 1,83 1,80 1,70 1,64 1,60 1,52 1,47 
40 | 2,06 1,99 1,94 1,89 1,85 1,82 1,79 1,69 1,63 1,59 1,52 1,46 
A5 | 2,05 1,98 1,92 1,88 1,84 1,80 1,77 1,67 1,61 1,57 1,49 1,43 
50 | 2,04 1,97 1,91 1,86 1,82 1,79 1,76 1,66 1,60 1,56 1,48 1,41 
55 | 2,03 1,96 1,90 1,85 1,81 1,78 1,75 1,65 1,59 1,55 1,46 1,40 
60 | 2,02 1,95 1,89 1,84 1,80 1,77 1,74 1,64 1,58 1,53 1,45 1,39 
65 | 2,01 1,94 1,88 1,83 1,79 1,76 1,73 1,63 1,57 1,52 1,44 1,37 
70 | 2,00 1,93 1,88 1,83 1,79 1,75 1,72 1,62 1,56 1,52 1,43 1,36 
80 1,99 1,92 1,86 1,82 1,78 1,74 TL 1,61 1,54 1,50 1,41 1,35 
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Loi du khi-deux 


v 0,995 0,975 0,95 0,9 0,1 0,05 0,025 0,005 
1 0,000 0,001 0,004 0,016 2,706 3,841 5,024 7,879 
2 | 0,010 0,051 0,103 0,211 4,605 5,991 7,378 10,597 
3 | 0,072 0,216 0,352 0,584 6,251 7,815 9,348 12,838 
4 | 0,207 0,484 0,711 1,064 7,779 9,488 11,143 14,860 
5 | 0,412 0,831 1,145 1,610 9,236 11,070 12,832 16,750 
6 | 0,676 1,237 1,635 2,204 10,645 12,592 14,449 18,548 
7 | 0,989 1,690 2,167 2,833 12,017 14,067 16,013 20,278 
8 1,344 2,180 2,733 3,490 13,362 15,507 17,535 21,955 
9 1,735 2,700 3,325 4,168 14,684 16,919 19,023 23,589 

10 | 2,156 3,247 3,940 4,865 15,987 18,307 20,483 25,188 

11 2,603 3,816 4,575 5,978 17,275 19,675 21,920 26,757 

12 | 3,074 4,404 5,226 6,304 18,549 21,026 23,337 28,300 

13 | 3,565 5,009 5,892 7,041 19,812 22,362 24,736 29,819 

14 | 4,075 5,629 6,571 7,790 21,064 23,685 26,119 31,319 

15 | 4,601 6,262 7,261 8,547 22,307 24,996 27,488 32,801 

16 | 5,142 6,908 7,962 9,312 23,542 26,296 28,845 34,267 

17 | 5,697 7,564 8,672 10,085 24,769 27,587 30,191 35,718 

18 | 6,265 8,231 9,390 10,865 25,989 28,869 31,526 37,156 

19 | 6,844 8,907 10,117 11,651 27,204 30,144 32,852 38,582 

20 7,434 9,591 10,851 12,443 28,412 31,410 34,170 39,997 

21 8,034 10,283 11,591 13,240 29,615 32,671 35,479 41,401 

22 | 8,643 10,982 12,338 14,041 30,813 33,924 36,781 42,796 

23 | 9,260 11,689 13,091 14,848 32,007 35,172 38,076 44,181 

24 | 9,886 12,401 13,848 15,659 33,196 36,415 39,364 45,558 

25 | 10,520 13,120 14,611 16,473 34,382 37,652 40,646 46,928 

26 | 11,160 13,844 15,379 17,292 35,563 38,885 41,923 48,290 

27 | 11,808 14,573 16,151 18,114 36,741 40,113 43,195 49,645 

28 | 12,461 15,308 16,928 18,939 37,916 41,337 44,461 50,994 

29 | 13,121 16,047 17,708 19,768 39,087 42,557 45,722 52,335 

30 | 13,787 16,791 18,493 20,599 40,256 43,773 46,979 53,672 

40 | 20,707 24,433 26,509 29,051 51,805 55,758 59,342 66,766 

50 | 27,991 32,357 34,764 37,689 63,167 67,505 71,420 79,490 

60 | 35,534 40,482 43,188 46,459 74,397 79,082 83,298 91,952 

70 | 43,275 48,758 51,739 55,329 85,527 90,531 95,023 104,215 

80 | 51,172 57,153 60,391 64,278 96,578 101,879 106,629 116,321 

90 | 59,196 65,647 69,126 73,291 107,565 113,145 118,136 128,299 

100 | 67,328 74,222 77,929 82,358 118,498 124,342 129,561 140,170 
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